Dissertations / Theses: 'Adaptation du locuteur'

1

Bonneau, Hélène. "Quantification vectorielle et adaptation au locuteur." Grenoble 2 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37603148c.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Bonneau, Hélène. "Quantification vectorielle et adaptation au locuteur." Paris 11, 1987. http://www.theses.fr/1987PA112306.

Full text

Abstract:

La plupart des systèmes de reconnaissance de grands vocabulaires utilisent la Quantification Vectorielle pour réduire la quantité d'informations à traiter. Dans le but de résoudre le principal problème actuellement rencontré par ces systèmes (qui est celui du passage au cas multi-locuteur), ce travail concerne l'étude d'une nouvelle méthode d'adaptation au locuteur, par Quantification Vectorielle (Q. V. ). Dans le premier chapitre nous exposons les principes de base de la Q. V. Nous présentons en particulier les différents algorithmes de classification automatique que nous avons utilisés lors de nos différentes expériences pour la construction des répertoires. L'étude des réalisations en reconnaissance de la parole montre que la Q. V. Est maintenant utilisée par de nombreux systèmes de reconnaissance de grands vocabulaires, pour réduire la quantité de données à traiter. Il existe également des réalisations qui utilisent la Q. V. , non plus simplement comme un outil mais comme méthode de reconnaissance (utilisation de la Q. V. Comme préprocesseur ou Q. V. Multi-section). Le second chapitre est consacré à la comparaison des différentes méthodes d'adaptation au locuteur… Les chapitres suivants concernent les différentes expériences que nous avons effectuées au cours de ce travail. Le chapitre 4 résume l’expérience menée dans le but de tester l’efficacité de la Q. V. Dans le cadre d’un système de reconnaissance globale mono-locuteur. L’expérience en identification du locuteur par Q. V. , décrite dans le chapitre 5, nous a permis de vérifier qu’un répertoire peut être utilisé pour représenter l’espace spectral d’un locuteur. Nous avons également comparé l’efficacité de deux méthodes de classification automatique : la méthode incrémentale et une méthode de nuées dynamique (l’algorithme de SPLIT)… La première partie du chapitre 6 décrit le principe de l’adaptation au locuteur par Q. V… La seconde partie du chapitre 6 décrit les expériences réalisées. Le choix du vocabulaire d’adaptation, qui contient 136 mots, a fait l’objet d’une étude particulière… Cette étude montre également que la Q. V. Représente plus qu’un simple outil pour réduire la quantité de données. Les répertoires qu’elle utilise permettent de caractériser les locuteurs, pour les systèmes de vérification du locuteur. Enfin, son efficacité pour l’adaptation au locuteur, offre aux systèmes de reconnaissance de grands vocabulaires, une solution intéressante au problème de la reconnaissance multi-locuteur.

APA, Harvard, Vancouver, ISO, and other styles

3

Gilles, Philippe. "Décodage phonétique de la parole et adaptation au locuteur." Avignon, 1993. http://www.theses.fr/1993AVIG0105.

Full text

Abstract:

Les travaux presentes concernent un systeme de decodage acoustico-phonetique de la parole utilisable dans differents types d'applications et facilement adaptable au locuteur. Le decodage comporte deux phases distinctes : une etape ascendante fournissant un treillis d'unites phonetiques valuees et une etape de verification descendante d'hypotheses phonologiques. L'adaptation au locuteur est realisee automatiquement en selectionnant des references spectrales moyennes des sons enonces dans un corpus tres limite d'une dizaine de mots. C'est a partir de ces seules informations que l'ensemble des procedures et des regles decrivant les connaissances acoustico-phonetiques sont particularisees pour un individu. Dans la phase ascendante, la localisation et l'identification des unites s'effectuent conjointement et la vraisemblance des hypotheses est mesuree au moyen de distances entre les references des sons et certaines portions privilegiees du signal (zones stables, frictions, explosions, etc. ). Le systeme maitrise les limites de ses possibilites et decrit sous la forme de regles contextuelles et independamment du locuteur les situations ou les hypotheses fournies sont indiscutables sur le plan de la localisation des sons. Les resultats ont permis la realisation de systemes operationnels de reconnaissance de la parole (mots isoles d'un grand vocabulaire, phrases en parole continue, mots cles dans un enonce, etc. ). La verification descendante d'hypotheses phonologiques consiste essentiellement pour les consonnes a rechercher dans le signal les traces acoustiques de phenomenes articulatoires attestant la realisation du son. Pour une partie importante des phonemes l'identification contextuelle des traits de mode et de lieu est correcte dans plus de 90% des cas

APA, Harvard, Vancouver, ISO, and other styles

4

Teng, Wen Xuan. "Adaptation rapide au locuteur par sous-espace variable de modèles de référence." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/teng.pdf.

Full text

Abstract:

This dissertation is dedicated to the adaptation of acoustic models for automatic speech recognition using very little adaptation data (a. K. A rapid adaptation). A common framework, the reference model subspace concept, is established to unify most rapid adaptation techniques in the literature. It helps us to study the limitations of the current techniques and investigate new adaptation algorithms by modifying the parameters of the framework. Random reference model subspace selection experiments reveal the robustness limitation of the techniques which are based on the a priori selection of reference model subspaces. In order to address this problem, we try to make subspaces variable at runtime for different adaptation targets by the a posteriori selection of reference models. This is implemented through a novel adaptation algorithm, reference model interpolation (RMI). The proposed technique is applied in phoneme decoding and LVCSR systems and evaluated with both supervised and unsupervised adaptation tasks. Experiments on three different databases IDIOLOGOS, PAIDIOLOGOS and ESTER show the effectiveness of RMI with utterance by utterance instantaneous adaptation. In addition, the incremental adaptation is also achieved by combining the slow update of reference models with the RMI rapid adaptation
Les travaux présentés dans cette thèse sont consacrés au problème de l’adaptation de modèles acoustiques pour la reconnaissance automatique de la parole en utilisant très peu de données. Nous définissons le concept de sous-espace de modèle de référence afin d’unifier la plupart des techniques d'adaptation rapide proposées dans la littérature dans un formalisme commun. Il nous aide à étudier les limites des techniques actuelles et à explorer de nouveaux algorithmes d'adaptation. Nous avons montré expérimentalement que l'adaptation avec des sous-espaces fixés ne peut pas donner d’améliorations stables pour différentes cibles à adapter (e. G. Locuteurs). Afin de résoudre ce problème, nous avons proposé d'utiliser des sous-espaces variables qui est mis en œuvre par un nouvel algorithme d’adaptation, l’interpolation de modèle de référence (IMR). Cette technique permet la sélection a posteriori de modèles de référence avec différents critères de sélection. La technique proposée est appliquée dans les systèmes de décodage phonétique et de reconnaissance automatique de la parole continue à grand vocabulaire. Des expériences sur trois bases de données, à savoir IDIOLOGOS, PAIDIOLOGOS et ESTER, montrent l'efficacité de la technique IMR avec l'adaptation instantanée. En outre, l'adaptation progressive est également atteinte en combinant la lente mise à jour des modèles de référence avec l’adaptation rapide par IMR

APA, Harvard, Vancouver, ISO, and other styles

5

Su, Huan-Yu. "Reconnaissance acoustico-phonétique en parole continue par quantification vectorielle adaptation du dictionnaire au locuteur /." Grenoble 2 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37610109z.

Full text

APA, Harvard, Vancouver, ISO, and other styles

6

Lauri, Fabrice. "Adaptation au locuteur de modèles acoustiques markoviens pour la reconnaissance automatique de la parole." Nancy 2, 2004. http://www.theses.fr/2004NAN2A001.

Full text

APA, Harvard, Vancouver, ISO, and other styles

7

SU, HUANG-YU. "Reconnaissance acoustico-phonetique en parole continue par quantification vectorielle : adaptation du dictionnaire au locuteur." Rennes 1, 1987. http://www.theses.fr/1987REN10127.

Full text

Abstract:

Introduction sur les differentes utilisations de la quantification vectorielle en parole et application a la reconnaissance statique d'unites phonetiques en parole continue. Partition de l'ensemble d'apprentissage en classes phonetiques et application de l'algorithme de llyod couple a une methode de fragmentation a chacune d'elles pour obtenir des sous-dictionnaires dont l'union forme le dictionnaire. Adaptation du dictionnaire au locuteur dans un systeme de reconnaissance independant du locuteur (algorithme de gradient stochastique, algorithme de lloyd generalise)

APA, Harvard, Vancouver, ISO, and other styles

8

Bellot, Olivier. "Adaptation au locuteur des modèles acoustiques dans le cadre de la reconnaissance automatique de la parole." Avignon, 2006. http://www.theses.fr/2006AVIG0154.

Full text

Abstract:

Le travail présenté s'inscrit dans le cadre des systèmes de reconnaissance automatique de la parole basés sur l'approche probabiliste. Dans ce cadre, si les conditions acoustiques de test différent de celles d'apprentissage, les performances des systèmes chutent rapidement. Les principales causes de décalage acoustique entre apprentissage et test peuvent être dues à l'environnement, au canal d'enregistrement ou aux caractéristiques propres au locuteur de test. Pour réduire ce décalage, il est souvent nécessaire d'avoir recours à une phase d'adaptation des modèles acoustiques. Les deux méthodes d'adaptation proposées ici ont été testées dans le cadre de l'adaptation au locuteur des modèles acoustiques et évaluées à l'aide du système de reconnaissance SPEERAL, développé au Laboratoire Informatique d'Avignon. Les expériences ont été réalisées sur un ensemble de 299 phrases prononcées par 20 locuteurs (corpus ARC B1 de l'AUPELF). La première méthode permet d'intégrer une partie des données d'apprentissage dans le processus d'adaptation, en sélectionnant au préalable une partie des locuteurs d'apprentissage considérés comme étant les plus proches du locuteur de test; nous proposons deux techniques différentes pour les calculs de distances entre locuteurs. Cette méthode a permis une réduction du taux d'erreur par mot de 15% (gain relatif) par rapport au système initial. La seconde méthode est basée sur un arbre de classification des paramètres du modèle acoustique initial. Nous proposons une nouvelle manière d'adapter l'ensemble des paramètres au moyen de transformations simples estimables quelle que soit la quantité de données d'adaptation disponible. Suivant la configuration du système initial, notre méthode permet une diminution du taux d'erreur mot de 16% par rapport au système initial (gain relatif). Il est important de constater que les gains apportés peuvent être cumulés avec l'adaptation MLLR: le gain relatif par rapport au système initial est alors de 19,5%
The speaker-dependent HMM-based recognizers have lower Word Error Rates (WER) than speaker-independent ones. Nevertheless, in the speaker-dependent case, the requirement of large amount of training data for each test speaker reduces the utility and portability of such systems. The aim of speaker adaptation techniques is to enhance the speaker-independent acoustic models to bring their recognition accuracy as close as possible to the one obtained with speaker-dependent models. In this work, we present two different approaches to increase the robustness of speech regnonizer with respect to the speaker acoustic variabilities. The first one is a method using test and training data for acoustic model adaptation . This method operates in two steps : the first one performs an a priori adaptation using the transcribed training data of the closest training speakers to the test speaker. The second one performs an a posteriori adaptation using the MLLR procedure on the test data. This adaptation strategy was evaluated in a large vocabulary speech recognition task. Our method leads to a relative gain of 15% with respect to the baseline system. The second method presented is based on tree structure. To avoid poor transformation parameters estimation accuracy due to an insufficiency of adaptation data in a node, we propose a new technique based on the maximum a posteriori approach and PDF Gaussians Merging. The basic idea behind this new technique is to estimate an affine transformations which bring the training acoustic models as close as possible to the test acoustic models rather than transformation maximizing the likelihood of the adaptation data. In this manner, even with very small amount of adaptation data, the parameters transformations are accurately estimated for means and variances. This method leads to a relative gain of 16% with respect to the baseline system and a relative gain of 19. 5% combined with the MLLR adaptation

APA, Harvard, Vancouver, ISO, and other styles

9

Barras, Claude. "Reconnaissance de la parole continue : adaptation au locuteur et controle temporel dans les modeles de markov caches." Paris 6, 1996. http://www.theses.fr/1996PA066019.

Full text

Abstract:

Les systemes les plus performants en reconnaissance de la parole continue exploitent une approche statistique par modeles de markov caches, mais leur qualite reste encore decevante. Nous avons cherche a ameliorer un systeme standard de reconnaissance en etudiant plus particulierement l'adaptation au locuteur et la modelisation de la duree acoustique. Afin d'evaluer la pertinence des traitements proposes, un systeme de reference a ete developpe a partir la plate-forme logicielle htk et teste sur la base de donnees timit par des experiences de decodage acoustico-phonetique. Ce systeme est constitue de modeles phonetiques dependants du contexte, et integre une procedure originale pour un meilleur apprentissage des densites de probabilite. La premiere etude concerne l'adaptation rapide du systeme a un nouveau locuteur par une approche qui generalise l'adaptation classique par multi-modeles. Les locuteurs d'apprentissage sont classes au moyen d'une distance inter-locuteurs utilisee en reconnaissance du locuteur. Pour un locuteur de test donne, les modeles appris sur les classes de locuteurs les plus proches au sens de la distance sont ensuite combines dans un modele unique. La deuxieme etude concerne le controle temporel de l'enchainement des modeles. Une analyse par rupture de modeles detecte des evenements infraphonemiques dans le signal de parole, qui sont exploites au cours du decodage de la parole continue pour modifier les probabilites de transition entre unites phonetiques. Le controle propose apporte une amelioration significative de la reconnaissance lexicale. Ces travaux sont une contribution au developpement d'un systeme de dictee vocale independant du locuteur, ce qui necessite en particulier l'integration d'un veritable modele de langage et l'evaluation sur d'autres bases de donnees

APA, Harvard, Vancouver, ISO, and other styles

10

Ferràs, Font Marc. "Utilisation des coefficients de régression linéaire par maximum de vraisemblance comme paramètres pour la reconnaissance automatique du locuteur." Phd thesis, Université Paris Sud - Paris XI, 2009. http://tel.archives-ouvertes.fr/tel-00616673.

Full text

Abstract:

The goal of this thesis is to find new and efficient features for speaker recognition. We are mostly concerned with the use of the Maximum-Likelihood Linear Regression (MLLR) family of adaptation techniques as features in speaker recognition systems. MLLR transformcoefficients are able to capture speaker cues after adaptation of a speaker-independent model using speech data. The resulting supervectors are high-dimensional and no underlying model guiding its generation is assumed a priori, becoming suitable for SVM for classification. This thesis brings some contributions to the speaker recognition field by proposing new approaches to feature extraction and studying existing ones via experimentation on large corpora: 1. We propose a compact yet efficient system, MLLR-SVM, which tackles the issues of transcript- and language-dependency of the standard MLLR-SVM approach by using single-class Constrained MLLR (CMLLR) adaptation transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). 1- When less data samples than dimensions are available. 2- We propose several alternative representations of CMLLR transformcoefficients based on the singular value and symmetric/skew-symmetric decompositions of transform matrices. 3- We develop a novel framework for feature-level inter-session variability compensation based on compensation of CMLLR transform supervectors via Nuisance Attribute Projection (NAP). 4- We perform a comprehensive experimental study of multi-class (C)MLLR-SVM systems alongmultiple axes including front-end, type of transform, type fmodel,model training and number of transforms. 5- We compare CMLLR and MLLR transform matrices based on an analysis of properties of their singular values. 6- We propose the use of lattice-basedMLLR as away to copewith erroneous transcripts in MLLR-SVMsystems using phonemic acoustic models.

APA, Harvard, Vancouver, ISO, and other styles

11

Lelong, Amélie. "Convergence phonétique en interaction Phonetic convergence in interaction." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENT079/document.

Full text

Abstract:

Le travail présenté dans cette thèse est basé sur l’étude d’un phénomène appelé convergence phonétique qui postule que deux interlocuteurs en interaction vont avoir tendance à adapter leur façon de parler à leur interlocuteur dans un but communicatif. Nous avons donc mis en place un paradigme appelé « Dominos verbaux » afin de collecter un corpus large pour caractériser ce phénomène, le but final étant de doter un agent conversationnel animé de cette capacité d’adaptation afin d’améliorer la qualité des interactions homme-machine.Nous avons mené différentes études pour étudier le phénomène entre des paires d’inconnus, d’amis de longue date, puis entre des personnes provenant de la même famille. On s’attend à ce que l’amplitude de la convergence soit liée à la distance sociale entre les deux interlocuteurs. On retrouve bien ce résultat. Nous avons ensuite étudié l’impact de la connaissance de la cible linguistique sur l’adaptation. Pour caractériser la convergence phonétique, nous avons développé deux méthodes : la première basée sur une analyse discriminante linéaire entre les coefficients MFCC de chaque locuteur, la seconde utilisant la reconnaissance de parole. La dernière méthode nous permettra par la suite d’étudier le phénomène en condition moins contrôlée.Finalement, nous avons caractérisé la convergence phonétique à l’aide d’une mesure subjective en utilisant un nouveau test de perception basé sur la détection « en ligne » d’un changement de locuteur. Le test a été réalisé à l’aide signaux extraits des interactions mais également avec des signaux obtenus avec une synthèse adaptative basé sur la modélisation HNM. Nous avons obtenus des résultats comparables démontrant ainsi la qualité de notre synthèse adaptative
The work presented in this manuscript is based on the study of a phenomenon called phonetic convergence which postulates that two people in interaction will tend to adapt how they talk to their partner in a communicative purpose. We have developed a paradigm called “Verbal Dominoes“ to collect a large corpus to characterize this phenomenon, the ultimate goal being to fill a conversational agent of this adaptability in order to improve the quality of human-machine interactions.We have done several studies to investigate the phenomenon between pairs of unknown people, good friends, and between people coming from the same family. We expect that the amplitude of convergence is proportional to the social distance between the two speakers. We found this result. Then, we have studied the knowledge of the linguistic target impact on adaptation. To characterize the phonetic convergence, we have developed two methods: the first one is based on a linear discriminant analysis between the MFCC coefficients of each speaker and the second one used speech recognition techniques. The last method will allow us to study the phenomenon in less controlled conditions.Finally, we characterized the phonetic convergence with a subjective measurement using a new perceptual test called speaker switching. The test was performed using signals coming from real interactions but also with synthetic data obtained with the harmonic plus

APA, Harvard, Vancouver, ISO, and other styles

12

Valdés, Vargas Julian Andrés. "Adaptation de clones orofaciaux à la morphologie et aux stratégies de contrôle de locuteurs cibles pour l'articulation de la parole." Thesis, Grenoble, 2013. http://www.theses.fr/2013GRENT105/document.

Full text

Abstract:

La capacité de production de la parole est apprise et maintenue au moyen d'une boucle de perception-action qui permet aux locuteurs de corriger leur propre production en fonction du retour perceptif reçu. Ce retour est auditif et proprioceptif, mais pas visuel. Ainsi, les sons de parole peuvent être complétés par l'affichage des articulateurs sur l'écran de l'ordinateur, y compris ceux qui sont habituellement cachés tels que la langue ou le voile du palais, ce qui constitue de la parole augmentée. Ce type de système a des applications dans des domaines tels que l'orthophonie, la correction phonétique et l'acquisition du langage. Ce travail a été mené dans le cadre du développement d'un système de retour articulatoire visuel, basé sur la morphologie et les stratégies articulatoires d'un locuteur de référence, qui anime automatiquement une tête parlante 3D à partir du son de la parole. La motivation de cette recherche était d'adapter ce système à plusieurs locuteurs. Ainsi, le double objectif de cette thèse était d'acquérir des connaissances sur la variabilité inter-locuteur, et de proposer des modèles pour adapter un clone de référence, composé de modèles des articulateurs de la parole (lèvres, langue, voile du palais, etc.), à d'autres locuteurs qui peuvent avoir des morphologies et des stratégies articulatoires différentes. Afin de construire des modèles articulatoires pour différents contours du conduit vocal, nous avons d'abord acquis des données qui couvrent l'espace articulatoire dans la langue française. Des Images médio-sagittales obtenues par Résonance Magnétique (IRM) pour onze locuteurs francophones prononçant 63 articulations ont été recueillis. L'un des principaux apports de cette étude est une base de données plus détaillée et plus grande que celles disponibles dans la littérature. Cette base contient, pour plusieurs locuteurs, les tracés de tous les articulateurs du conduit vocal, pour les voyelles et les consonnes, alors que les études précédentes dans la littérature sont principalement basées sur les voyelles. Les contours du conduit vocal visibles dans l'IRM ont été tracés à la main en suivant le même protocole pour tous les locuteurs. Afin d'acquérir de la connaissance sur la variabilité inter-locuteur, nous avons caractérisé nos locuteurs en termes des stratégies articulatoires des différents articulateurs tels que la langue, les lèvres et le voile du palais. Nous avons constaté que chaque locuteur a sa propre stratégie pour produire des sons qui sont considérées comme équivalents du point de vue de la communication parlée. La variabilité de la langue, des lèvres et du voile du palais a été décomposé en une série de mouvements principaux par moyen d'une analyse en composantes principales (ACP). Nous avons remarqué que ces mouvements sont effectués dans des proportions différentes en fonction du locuteur. Par exemple, pour un déplacement donné de la mâchoire, la langue peut globalement se déplacer dans une proportion qui dépend du locuteur. Nous avons également remarqué que la protrusion, l'ouverture des lèvres, l'influence du mouvement de la mâchoire sur les lèvres, et la stratégie articulatoire du voile du palais peuvent également varier en fonction du locuteur. Par exemple, certains locuteurs replient le voile du palais contre la langue pour produire la consonne /ʁ/. Ces résultats constituent également une contribution importante à la connaissance de la variabilité inter-locuteur dans la production de la parole. Afin d'extraire un ensemble de patrons articulatoires communs à différents locuteurs dans la production de la parole (normalisation), nous avons basé notre approche sur des modèles linéaires construits à partir de données articulatoires. Des méthodes de décomposition linéaire multiple ont été appliquées aux contours de la langue, des lèvres et du voile du palais
The capacity of producing speech is learned and maintained by means of a perception-action loop that allows speakers to correct their own production as a function of the perceptive feedback received. This auto feedback is auditory and proprioceptive, but not visual. Thus, speech sounds may be complemented by augmented speech systems, i.e. speech accompanied by the virtual display of speech articulators shapes on a computer screen, including those that are typically hidden such as tongue or velum. This kind of system has applications in domains such as speech therapy, phonetic correction or language acquisition in the framework of Computer Aided Pronunciation Training (CAPT). This work has been conducted in the frame of development of a visual articulatory feedback system, based on the morphology and articulatory strategies of a reference speaker, which automatically animates a 3D talking head from the speech sound. The motivation of this research was to make this system suitable for several speakers. Thus, the twofold objective of this thesis work was to acquire knowledge about inter-speaker variability, and to propose vocal tract models to adapt a reference clone, composed of models of speech articulator's contours (lips, tongue, velum, etc), to other speakers that may have different morphologies and different articulatory strategies. In order to build articulatory models of various vocal tract contours, we have first acquired data that cover the whole articulatory space in the French language. Midsagittal Magnetic Resonance Images (MRI) of eleven French speakers, pronouncing 63 articulations, have been collected. One of the main contributions of this study is a more detailed and larger database compared to the studies in the literature, containing information of several vocal tract contours, speakers and consonants, whereas previous studies in the literature are mostly based on vowels. The vocal tract contours visible in the MRI were outlined by hand following the same protocol for all speakers. In order to acquire knowledge about inter-speaker variability, we have characterised our speakers in terms of the articulatory strategies of various vocal tract contours like: tongue, lips and velum. We observed that each speaker has his/her own strategy to achieve sounds that are considered equivalent, among different speakers, for speech communication purposes. By means of principal component analysis (PCA), the variability of the tongue, lips and velum contours was decomposed in a set of principal movements. We noticed that these movements are performed in different proportions depending on the speaker. For instance, for a given displacement of the jaw, the tongue may globally move in a proportion that depends on the speaker. We also noticed that lip protrusion, lip opening, the influence of the jaw movement on the lips, and the velum's articulatory strategy can also vary according to the speaker. For example, some speakers roll up their uvulas against the tongue to produce the consonant /ʁ/ in vocalic contexts. These findings also constitute an important contribution to the knowledge of inter-speaker variability in speech production. In order to extract a set of common articulatory patterns that different speakers employ when producing speech sounds (normalisation), we have based our approach on linear models built from articulatory data. Multilinear decomposition methods have been applied to the contours of the tongue, lips and velum. The evaluation of our models was based in two criteria: the variance explanation and the Root Mean Square Error (RMSE) between the original and recovered articulatory coordinates. Models were also assessed using a leave-one-out cross validation procedure

APA, Harvard, Vancouver, ISO, and other styles

13

Lelong, Amelie. "Convergence phonétique en interaction Phonetic convergence in interaction." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00822871.

Full text

Abstract:

Le travail présenté dans cette thèse est basé sur l'étude d'un phénomène appelé convergence phonétique qui postule que deux interlocuteurs en interaction vont avoir tendance à adapter leur façon de parler à leur interlocuteur dans un but communicatif. Nous avons donc mis en place un paradigme appelé " Dominos verbaux " afin de collecter un corpus large pour caractériser ce phénomène, le but final étant de doter un agent conversationnel animé de cette capacité d'adaptation afin d'améliorer la qualité des interactions homme-machine.Nous avons mené différentes études pour étudier le phénomène entre des paires d'inconnus, d'amis de longue date, puis entre des personnes provenant de la même famille. On s'attend à ce que l'amplitude de la convergence soit liée à la distance sociale entre les deux interlocuteurs. On retrouve bien ce résultat. Nous avons ensuite étudié l'impact de la connaissance de la cible linguistique sur l'adaptation. Pour caractériser la convergence phonétique, nous avons développé deux méthodes : la première basée sur une analyse discriminante linéaire entre les coefficients MFCC de chaque locuteur, la seconde utilisant la reconnaissance de parole. La dernière méthode nous permettra par la suite d'étudier le phénomène en condition moins contrôlée.Finalement, nous avons caractérisé la convergence phonétique à l'aide d'une mesure subjective en utilisant un nouveau test de perception basé sur la détection " en ligne " d'un changement de locuteur. Le test a été réalisé à l'aide signaux extraits des interactions mais également avec des signaux obtenus avec une synthèse adaptative basé sur la modélisation HNM. Nous avons obtenus des résultats comparables démontrant ainsi la qualité de notre synthèse adaptative.

APA, Harvard, Vancouver, ISO, and other styles

14

Tomashenko, Natalia. "Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems." Thesis, Le Mans, 2017. http://www.theses.fr/2017LEMA1040/document.

Full text

Abstract:

Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire
Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them

APA, Harvard, Vancouver, ISO, and other styles

15

Ben, Youssef Atef. "Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l’apprentissage et la réhabilitation du langage." Thesis, Grenoble, 2011. http://www.theses.fr/2011GRENT088/document.

Full text

Abstract:

Les sons de parole peuvent être complétés par l'affichage des articulateurs sur un écran d'ordinateur pour produire de la parole augmentée, un signal potentiellement utile dans tous les cas où le son lui-même peut être difficile à comprendre, pour des raisons physiques ou perceptuelles. Dans cette thèse, nous présentons un système appelé retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés à partir de la voix du locuteur. La motivation de cette thèse était de développer un tel système qui pourrait être appliqué à l'aide à l'apprentissage de la prononciation pour les langues étrangères, ou dans le domaine de l'orthophonie. Nous avons basé notre approche de ce problème d'inversion sur des modèles statistiques construits à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique (EMA). Notre approche avec les modèles de Markov cachés (HMMs) combine des techniques de reconnaissance automatique de la parole et de synthèse articulatoire pour estimer les trajectoires articulatoires à partir du signal acoustique. D'un autre côté, les modèles de mélanges gaussiens (GMMs) estiment directement les trajectoires articulatoires à partir du signal acoustique sans faire intervenir d'information phonétique. Nous avons basé notre évaluation des améliorations apportées à ces modèles sur différents critères : l'erreur quadratique moyenne (RMSE) entre les coordonnées EMA originales et reconstruites, le coefficient de corrélation de Pearson, l'affichage des espaces et des trajectoires articulatoires, aussi bien que les taux de reconnaissance acoustique et articulatoire. Les expériences montrent que l'utilisation d'états liés et de multi-gaussiennes pour les états des HMMs acoustiques améliore l'étage de reconnaissance acoustique des phones, et que la minimisation de l'erreur générée (MGE) dans la phase d'apprentissage des HMMs articulatoires donne des résultats plus précis par rapport à l'utilisation du critère plus conventionnel de maximisation de vraisemblance (MLE). En outre, l'utilisation du critère MLE au niveau de mapping direct de l'acoustique vers l'articulatoire par GMMs est plus efficace que le critère de minimisation de l'erreur quadratique moyenne (MMSE). Nous constatons également trouvé que le système d'inversion par HMMs est plus précis celui basé sur les GMMs. Par ailleurs, des expériences utilisant les mêmes méthodes statistiques et les mêmes données ont montré que le problème de reconstruction des mouvements de la langue à partir des mouvements du visage et des lèvres ne peut pas être résolu dans le cas général, et est impossible pour certaines classes phonétiques. Afin de généraliser notre système basé sur un locuteur unique à un système d'inversion de parole multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR). Dans cette méthode MLLR, la transformation basée sur la régression linéaire qui adapte les HMMs acoustiques originaux à ceux du nouveau locuteur est calculée de manière à maximiser la vraisemblance des données d'adaptation. Finalement, cet étage d'adaptation du locuteur a été évalué en utilisant un système de reconnaissance automatique des classes phonétique de l'articulation, dans la mesure où les données articulatoires originales du nouveau locuteur n'existent pas. Finalement, en utilisant cette procédure d'adaptation, nous avons développé un démonstrateur complet de retour articulatoire visuel, qui peut être utilisé par un locuteur quelconque. Ce système devra être évalué de manière perceptive dans des conditions réalistes
Speech sounds may be complemented by displaying speech articulators shapes on a computer screen, hence producing augmented speech, a signal that is potentially useful in all instances where the sound itself might be difficult to understand, for physical or perceptual reasons. In this thesis, we introduce a system called visual articulatory feedback, in which the visible and hidden articulators of a talking head are controlled from the speaker's speech sound. The motivation of this research was to develop such a system that could be applied to Computer Aided Pronunciation Training (CAPT) for learning of foreign languages, or in the domain of speech therapy. We have based our approach to this mapping problem on statistical models build from acoustic and articulatory data. In this thesis we have developed and evaluated two statistical learning methods trained on parallel synchronous acoustic and articulatory data recorded on a French speaker by means of an electromagnetic articulograph. Our Hidden Markov models (HMMs) approach combines HMM-based acoustic recognition and HMM-based articulatory synthesis techniques to estimate the articulatory trajectories from the acoustic signal. Gaussian mixture models (GMMs) estimate articulatory features directly from the acoustic ones. We have based our evaluation of the improvement results brought to these models on several criteria: the Root Mean Square Error between the original and recovered EMA coordinates, the Pearson Product-Moment Correlation Coefficient, displays of the articulatory spaces and articulatory trajectories, as well as some acoustic or articulatory recognition rates. Experiments indicate that the use of states tying and multi-Gaussian per state in the acoustic HMM improves the recognition stage, and that the minimum generation error (MGE) articulatory HMMs parameter updating results in a more accurate inversion than the conventional maximum likelihood estimation (MLE) training. In addition, the GMM mapping using MLE criteria is more efficient than using minimum mean square error (MMSE) criteria. In conclusion, we have found that the HMM inversion system has a greater accuracy compared with the GMM one. Beside, experiments using the same statistical methods and data have shown that the face-to-tongue inversion problem, i.e. predicting tongue shapes from face and lip shapes cannot be solved in a general way, and that it is impossible for some phonetic classes. In order to extend our system based on a single speaker to a multi-speaker speech inversion system, we have implemented a speaker adaptation method based on the maximum likelihood linear regression (MLLR). In MLLR, a linear regression-based transform that adapts the original acoustic HMMs to those of the new speaker was calculated to maximise the likelihood of adaptation data. Finally, this speaker adaptation stage has been evaluated using an articulatory phonetic recognition system, as there are not original articulatory data available for the new speakers. Finally, using this adaptation procedure, we have developed a complete articulatory feedback demonstrator, which can work for any speaker. This system should be assessed by perceptual tests in realistic conditions

APA, Harvard, Vancouver, ISO, and other styles

16

Ben, youssef Atef. "Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00721957.

Full text

Abstract:

Les sons de parole peuvent être complétés par l'affichage des articulateurs sur un écran d'ordinateur pour produire de la parole augmentée, un signal potentiellement utile dans tous les cas où le son lui-même peut être difficile à comprendre, pour des raisons physiques ou perceptuelles. Dans cette thèse, nous présentons un système appelé retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés à partir de la voix du locuteur. La motivation de cette thèse était de développer un tel système qui pourrait être appliqué à l'aide à l'apprentissage de la prononciation pour les langues étrangères, ou dans le domaine de l'orthophonie. Nous avons basé notre approche de ce problème d'inversion sur des modèles statistiques construits à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique (EMA). Notre approche avec les modèles de Markov cachés (HMMs) combine des techniques de reconnaissance automatique de la parole et de synthèse articulatoire pour estimer les trajectoires articulatoires à partir du signal acoustique. D'un autre côté, les modèles de mélanges gaussiens (GMMs) estiment directement les trajectoires articulatoires à partir du signal acoustique sans faire intervenir d'information phonétique. Nous avons basé notre évaluation des améliorations apportées à ces modèles sur différents critères : l'erreur quadratique moyenne (RMSE) entre les coordonnées EMA originales et reconstruites, le coefficient de corrélation de Pearson, l'affichage des espaces et des trajectoires articulatoires, aussi bien que les taux de reconnaissance acoustique et articulatoire. Les expériences montrent que l'utilisation d'états liés et de multi-gaussiennes pour les états des HMMs acoustiques améliore l'étage de reconnaissance acoustique des phones, et que la minimisation de l'erreur générée (MGE) dans la phase d'apprentissage des HMMs articulatoires donne des résultats plus précis par rapport à l'utilisation du critère plus conventionnel de maximisation de vraisemblance (MLE). En outre, l'utilisation du critère MLE au niveau de mapping direct de l'acoustique vers l'articulatoire par GMMs est plus efficace que le critère de minimisation de l'erreur quadratique moyenne (MMSE). Nous constatons également trouvé que le système d'inversion par HMMs est plus précis celui basé sur les GMMs. Par ailleurs, des expériences utilisant les mêmes méthodes statistiques et les mêmes données ont montré que le problème de reconstruction des mouvements de la langue à partir des mouvements du visage et des lèvres ne peut pas être résolu dans le cas général, et est impossible pour certaines classes phonétiques. Afin de généraliser notre système basé sur un locuteur unique à un système d'inversion de parole multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR). Dans cette méthode MLLR, la transformation basée sur la régression linéaire qui adapte les HMMs acoustiques originaux à ceux du nouveau locuteur est calculée de manière à maximiser la vraisemblance des données d'adaptation. Finalement, cet étage d'adaptation du locuteur a été évalué en utilisant un système de reconnaissance automatique des classes phonétique de l'articulation, dans la mesure où les données articulatoires originales du nouveau locuteur n'existent pas. Finalement, en utilisant cette procédure d'adaptation, nous avons développé un démonstrateur complet de retour articulatoire visuel, qui peut être utilisé par un locuteur quelconque. Ce système devra être évalué de manière perceptive dans des conditions réalistes.

APA, Harvard, Vancouver, ISO, and other styles

17

Le, Lan Gaël. "Analyse en locuteurs de collections de documents multimédia." Thesis, Le Mans, 2017. http://www.theses.fr/2017LEMA1020/document.

Full text

Abstract:

La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l'échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l'avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l'échelle d'une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue...). Cette thèse propose deux méthodes pour pallier le problème. D'une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d'adaptation non supervisée au domaine est présenté, exploitant l'information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d'analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d'erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d'une quarantaine d'épisodes, pour les architectures de SRL globale ou incrémentale, à l'aide de la modélisation locuteur à l'état de l'art
The task of speaker diarization and linking aims at answering the question "who speaks and when?" in a collection of multimedia recordings. It is an essential step to index audiovisual contents. The task of speaker diarization and linking firstly consists in segmenting each recording in terms of speakers, before linking them across the collection. Aim is, to identify each speaker with a unique anonymous label, even for speakers appearing in multiple recordings, without any knowledge of their identity or number. The challenge of the cross-recording linking is the modeling of the within-speaker/across-recording variability: depending on the recording, a same speaker can appear in multiple acoustic conditions (in a studio, in the street...). The thesis proposes two methods to overcome this issue. Firstly, a novel neural variability compensation method is proposed, using the triplet-loss paradigm for training. Secondly, an iterative unsupervised domain adaptation process is presented, in which the system exploits the information (even inaccurate) about the data it processes, to enhance its performances on the target acoustic domain. Moreover, novel ways of analyzing the results in terms of speaker are explored, to understand the actual performance of a diarization and linking system, beyond the well-known Diarization Error Rate (DER). Systems and methods are evaluated on two TV shows of about 40 episodes, using either a global, or longitudinal linking architecture, and state of the art speaker modeling (i-vector)

APA, Harvard, Vancouver, ISO, and other styles

18

Borges, Liselene de Abreu. "Sistemas de adaptação ao locutor utilizando autovozes." Universidade de São Paulo, 2001. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-05052003-104044/.

Full text

Abstract:

O presente trabalho descreve duas técnicas de adaptação ao locutor para sistemas de reconhecimento de voz utilizando um volume de dados de adaptação reduzido. Regressão Linear de Máxima Verossimilhança (MLLR) e Autovozes são as técnicas trabalhadas. Ambas atualizam as médias das Gaussianas dos modelos ocultos de Markov (HMM). A técnica MLLR estima um grupo de transformações lineares para os parâmetros das medias das Gaussianas do sistema. A técnica de Autovozes baseia-se no conhecimento prévio das variações entre locutores. Para obtermos o conhecimento prévio, que está contido nas autovozes, utiliza-se a análise em componentes principais (PCA). Fizemos os testes de adaptação das médias em um sistema de reconhecimento de voz de palavras isoladas e de vocabulário restrito. Contando com um volume grande de dados de adaptação (mais de 70% das palavras do vocabulário) a técnica de autovozes não apresentou resultados expressivos com relação aos que a técnica MLLR apresentou. Agora, quando o volume de dados reduzido (menos de 15% das palavras do vocabulário) a técnica de Autovozes apresentou-se superior à MLLR.
This present work describe two speaker adaptation technique, using a small amount of adaptation data, for a speech recognition system. These techniques are Maximum Likelihood Linear Regression (MLLR) and Eigenvoices. Both re-estimates the mean of a continuous density Hidden Markov Model system. MLLR technique estimates a set of linear transformations for mean parameters of a Gaussian system. The eigenvoice technique is based on a previous knowledge about speaker variation. For obtaining this previous knowledge, that are retained in eigenvoices, it necessary to apply principal component analysis (PCA). We make adaptation tests over an isolated word recognition system, restrict vocabulary. If a large amount of adaptation data is available (up to 70% of all vocabulary) Eigenvoices technique does not appear to be a good implementation if compared with the MLLR technique. Now, when just a small amount of adaptation data is available (less than 15 % of all vocabulary), Eigenvoices technique get better results than MLLR technique.

APA, Harvard, Vancouver, ISO, and other styles

19

Ben, Youssef Atef. "Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00699008.

Full text

Abstract:

Cette thèse présente un système de retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés par inversion à partir de la voix d'un locuteur. Notre approche de ce problème d'inversion est basée sur des modèles statistiques élaborés à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique. Un premier système combine des techniques de reconnaissance acoustique de la parole et de synthèse articulatoire basées sur des modèles de Markov cachés (HMMs). Un deuxième système utilise des modèles de mélanges gaussiens (GMMs) pour estimer directement les trajectoires articulatoires à partir du signal acoustique. Pour généraliser le système mono-locuteur à un système multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR) que nous avons évaluée à l'aide un système de reconnaissance articulatoire de référence. Enfin, nous présentons un démonstrateur de retour articulatoire visuel.

APA, Harvard, Vancouver, ISO, and other styles

20

Dias, Raquel de Souza Ferreira. "Normalização de locutor em sistema de reconhecimento de fala." [s.n.], 2000. http://repositorio.unicamp.br/jspui/handle/REPOSIP/261949.

Full text

Abstract:

Orientador: Fabio Violaro
Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação
Made available in DSpace on 2018-07-28T13:19:36Z (GMT). No. of bitstreams: 1 Dias_RaqueldeSouzaFerreira_M.pdf: 453879 bytes, checksum: 3b408421c3b4b92453ac0dc80111c05b (MD5) Previous issue date: 2000
Mestrado

APA, Harvard, Vancouver, ISO, and other styles

21

Ottens, Kévin. "Un système multi-agent adaptatif pour la construction d'ontologies à partir de textes." Phd thesis, Université Paul Sabatier - Toulouse III, 2007. http://tel.archives-ouvertes.fr/tel-00176883.

Full text

Abstract:

Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels. Ainsi, il doit faciliter l'accès à l'information pour les utilisateurs. Or, un des enjeux du succès du Web sémantique est la disponibilité d'ontologies qui sont des représentations de connaissances formalisées et exploitables par des systèmes informatiques pour leur communication. Malheureusement leur construction est généralement longue et coûteuse, et leur maintenance soulève des problèmes jusqu'ici sous-estimés. S'appuyer sur des textes pour la conception d'ontologies est vu comme une issue possible à leur coût, malgré les difﬁcultés inhérentes à l'exploration d'analyses textuelles.

Parce que l'ontologie doit être maintenue, et parce qu'elle peut-être vue comme un système complexe constitué de concepts, nous proposons d'utiliser les systèmes multi-agents adaptatifs pour semi-automatiser le processus de construction des ontologies à partir de texte. L'état stable de ces systèmes résulte des interactions coopératives entre les agents logiciels qui les constituent. Dans notre cas, les agents utilisent des algorithmes distribués d'analyse statistique pour trouver la structure la plus satisfaisante d'après une analyse syntaxique et distributionnelle des textes. L'utilisateur peut alors valider, critiquer ou modiﬁer des parties de cette structure d'agents, qui est la base de l'ontologie en devenir, pour la rendre conforme à ses objectifs et à sa vision du domaine modélisé. En retour, les agents se réorganisent pour satisfaire les nouvelles contraintes introduites. Les ontologies habituellement ﬁxées deviennent ici dynamiques, leur conception devient « vivante ». Ce sont les principes sous-jacents de notre système nommé Dynamo.

La pertinence de cette approche a été mise à l'épreuve par des expérimentations visant à évaluer la complexité algorithmique de notre système, et par son utilisation en conditions réelles. Dans ce mémoire, nous présentons et analysons les résultats obtenus.

APA, Harvard, Vancouver, ISO, and other styles

22

Sidi-Hida, Mouna. "L'adaptation cinématographie d'oeuvres littéraires françaises et l'enseignement du français au secondaire au Maroc : constats, enjeux et propositions." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENL031.

Full text

Abstract:

Étudier les adaptations cinématographiques des œuvres littéraires françaises en classe de français, ouvre des perspectives didactiques intéressantes dans l'enseignement du français. Dans le cas du Maroc, cette expérience a permis la mise en œuvre d'un ensemble de séquences didactiques pour les classes du secondaire (collège et lycée). Les élèves ont appris à réévaluer la portée artistique et expressive de chaque art. Le travail introductif sur le cinéma, à travers l'adaptation cinématographique, a démontré aux élèves la complexité de ce langage artistique particulier. Par conséquent, le cinéma a acquis le statut d'un objet de savoir parmi les composantes du cours de français. Tout autant, appréhender la littérature par le biais du cinéma, a réhabilité le langage littéraire auprès des élèves : au lieu d'être rebutés par la littérature, en prétextant la complexité de son langage, les élèves ont découvert, en elle, la profondeur de la pensée humaine et parfois mêmes, de la leur. De la sorte, ils ont entamé un long chemin, pour apprendre à recevoir le verbe et l'image
Explore film adaptations of literary works in French class, opens up interesting didactic teaching French. In the case of Morocco, this experience has enabled the implementation of a set of didactic sequences for secondary classes (college and high school). Students learned to reevaluate the scope of each artistic and expressive art. The introductory work on the film through the film adaptation, demonstrated to students the complexity of this particular artistic language. Therefore, the film has acquired the status of an object of knowledge among the components of French courses. Equally, understanding literature through film, rehabilitated the literary language from students instead of being put off by the literature, claiming the complexity of his language, students have discovered in it, the depth of human thought and sometimes even of their own. In this way, they began a long way, to learn how to receive the word and image

APA, Harvard, Vancouver, ISO, and other styles

23

Detey, Sylvain. "Interphonologie et représentations orthographiques : du rôle de l'écrit dans l'enseignement-apprentissage du français oral chez des étudiants japonais." Phd thesis, Université Toulouse le Mirail - Toulouse II, 2005. http://tel.archives-ouvertes.fr/tel-00458366.

Full text

Abstract:

L'objectif de cette thèse est de proposer une analyse de la problématique de l'utilisation de l'écrit dans l'enseignement/apprentissage de l'oral en langue étrangère, illustrée par le cas d'apprenants japonais de français en milieu universitaire au Japon. Il s'agit d'une thèse de didactique des langues et des cultures, qui, dans une approche implicationniste, établit une perspective de recherche didactique vis-à-vis du rapport entre multimodalité des supports (visuel/orthographique et auditif) et apprentissage de l'oral (en perception et en production), plus particulièrement celui du système phonético-phonologique du français. Les domaines didactique, phonético-phonologique et psycholinguistique sont dès lors sollicités pour rendre compte du rapport entre interphonologie et représentations orthographiques chez ces apprenants. La thèse s'articule en six grandes parties : 1) une introduction didactique (présentation des problématiques initiales à partir d'observations de terrain) ; 2) une partie linguistique (comparaison des systèmes phonético-phonologique et phonographémique français (L2) et japonais (L1)) ; 3) une partie psycholinguistique (description du fonctionnement cognitif des apprenants, en tenant compte de leurs spécificités vis-à-vis des processus de perception de la parole et de l'écrit) ; 4) une partie « problématiques » (reformulation des problématiques initiales et élaboration d'un protocole d'investigation quasi-expérimental) ; 5) une partie expérimentale (description des tests, résultats et interprétation, les tests étant axés sur la perception des segments /b, v, r, l/ et des groupes biconsonantiques /CC/) ; 6) une partie didactique conclusive (implications pour la recherche et pour les pratiques de classe, vis-à-vis de l'utilisation de la modalité visuelle dans l'enseignement/apprentissage de l'oral en L2). Il apparaît que si l'on souhaite faire apprendre le système phonético-phonologique d'une L2, il conviendrait de prendre davantage en compte la dimension phonographémique d'un tel apprentissage.

APA, Harvard, Vancouver, ISO, and other styles

24

Sivasankaran, Sunit. "Séparation de la parole guidée par la localisation." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0078.

Full text

Abstract:

Les assistants vocaux font partie de notre vie quotidienne. Leurs performances sont mises à l'épreuve en présence de distorsions du signal, telles que le bruit, la réverbération et les locuteurs simultanés. Cette thèse aborde le problème de l'extraction du signal d'intérêt dans de telles conditions acoustiques difficiles en localisant d'abord le locuteur cible puis en utilisant la position spatiale pour extraire le signal de parole correspondant. Dans un premier temps, nous considérons la situation courante où le locuteur cible prononce un mot ou une phrase connue, comme le mot de réveil d'un système de commande vocale mains-libres. Nous proposons une méthode afin d'exploiter cette information textuelle pour améliorer la localisation du locuteur en présence de locuteurs simultanés. La solution proposée utilise un système de reconnaissance vocale pour aligner le mot de réveil au signal vocal corrompu. Un spectre de référence représentant les phones alignés est utilisé pour calculer un identifiant qui est ensuite utilisé par un réseau de neurones profond pour localiser le locuteur cible. Les résultats sur des données simulées montrent que la méthode proposée réduit le taux d'erreur de localisation par rapport à la méthode classique GCC-PHAT. Des améliorations similaires sont constatées sur des données réelles. Étant donnée la position spatiale estimée du locuteur cible, la séparation de la parole est effectuée en trois étapes. Dans la première étape, une simple formation de voie delay-and-sum (DS) est utilisée pour rehausser le signal provenant de cette direction, qui est utilisé dans la deuxième étape par un réseau de neurones pour estimer un masque temps-fréquence. Ce masque est utilisé pour calculer les statistiques du second ordre et pour effectuer une formation de voie adaptative dans la troisième étape. Un ensemble de données réverbéré, bruité avec plusieurs canaux et plusieurs locuteurs --- inspiré du célèbre corpus WSJ0-2mix --- a été généré et la performance de la méthode proposée a été étudiée en terme du taux d'erreur sur les mots (WER). Pour rendre le système plus robuste aux erreurs de localisation, une approche par déflation guidée par la localisation (SLOGD) qui estime les sources de manière itérative est proposée. À chaque itération, la position spatiale d'un locuteur est estimée puis utilisée pour estimer un masque correspondant à ce même locuteur. La source estimée est retirée du mélange avant d'estimer la position et le masque de la source suivante. La méthode proposée surpasse Conv-TasNet. Enfin, le problème d'expliquer la robustesse des réseaux de neurones utilisés pour calculer les masques temps-fréquence à des conditions de bruit différentes. Nous utilisons la méthode dite SHAP pour quantifier la contribution de chaque point temps-fréquence du signal d'entrée au masque temps-fréquence estimé. Nous définissons une métrique qui résume les valeurs SHAP et montrons qu'elle est corrélée au WER obtenu sur la parole séparée. À notre connaissance, il s'agit de la première étude sur l'explicabilité des réseaux de neurones dans le contexte de la séparation de la parole
Voice based personal assistants are part of our daily lives. Their performance suffers in the presence of signal distortions, such as noise, reverberation, and competing speakers. This thesis addresses the problem of extracting the signal of interest in such challenging conditions by first localizing the target speaker and using the location to extract the target speech. In a first stage, a common situation is considered when the target speaker utters a known word or sentence such as the wake-up word of a distant-microphone voice command system. A method that exploits this text information in order to improve the speaker localization performance in the presence of competing speakers is proposed. The proposed solution uses a speech recognition system to align the wake-up word to the corrupted speech signal. A model spectrum representing the aligned phones is used to compute an identifier which is then used by a deep neural network to localize the target speaker. Results on simulated data show that the proposed method reduces the localization error rate compared to the classical GCC-PHAT method. Similar improvements are observed on real data. Given the estimated location of the target speaker, speech separation is performed in three stages. In the first stage, a simple delay-and-sum (DS) beamformer is used to enhance the signal impinging from that location which is then used in the second stage to estimate a time-frequency mask corresponding to the localized speaker using a neural network. This mask is used to compute the second-order statistics and to derive an adaptive beamformer in the third stage. A multichannel, multispeaker, reverberated, noisy dataset --- inspired from the famous WSJ0-2mix dataset --- was generated and the performance of the proposed pipeline was investigated in terms of the word error rate (WER). To make the system robust to localization errors, a Speaker LOcalization Guided Deflation (SLOGD) based approach which estimates the sources iteratively is proposed. At each iteration the location of one speaker is estimated and used to estimate a mask corresponding to that speaker. The estimated source is removed from the mixture before estimating the location and mask of the next source. The proposed method is shown to outperform Conv-TasNet. Finally, we consider the problem of explaining the robustness of neural networks used to compute time-frequency masks to mismatched noise conditions. We employ the so-called SHAP method to quantify the contribution of every time-frequency bin in the input signal to the estimated time-frequency mask. We define a metric that summarizes the SHAP values and show that it correlates with the WER achieved on separated speech. To the best of our knowledge, this is the first known study on neural network explainability in the context of speech separation

APA, Harvard, Vancouver, ISO, and other styles

25

Valdes, Julian. "Adaptation de clones orofaciaux à la morphologie et aux stratégies de contrôle de locuteurs cibles pour l'articulation de la parole." Phd thesis, 2013. http://tel.archives-ouvertes.fr/tel-00843693.

Full text

Abstract:

La capacité de production de la parole est apprise et maintenue au moyen d'une boucle de perception-action qui permet aux locuteurs de corriger leur propre production en fonction du retour perceptif reçu. Ce retour est auditif et proprioceptif, mais pas visuel. Ainsi, les sons de parole peuvent être complétés par l'affichage des articulateurs sur l'écran de l'ordinateur, y compris ceux qui sont habituellement cachés tels que la langue ou le voile du palais, ce qui constitue de la parole augmentée. Ce type de système a des applications dans des domaines tels que l'orthophonie, la correction phonétique et l'acquisition du langage. Ce travail a été mené dans le cadre du développement d'un système de retour articulatoire visuel, basé sur la morphologie et les stratégies articulatoires d'un locuteur de référence, qui anime automatiquement une tête parlante 3D à partir du son de la parole. La motivation de cette recherche était d'adapter ce système à plusieurs locuteurs. Ainsi, le double objectif de cette thèse était d'acquérir des connaissances sur la variabilité inter-locuteur, et de proposer des modèles pour adapter un clone de référence, composé de modèles des articulateurs de la parole (lèvres, langue, voile du palais, etc.), à d'autres locuteurs qui peuvent avoir des morphologies et des stratégies articulatoires différentes. Afin de construire des modèles articulatoires pour différents contours du conduit vocal, nous avons d'abord acquis des données qui couvrent l'espace articulatoire dans la langue française. Des Images médio-sagittales obtenues par Résonance Magnétique (IRM) pour onze locuteurs francophones prononçant 63 articulations ont été recueillis. L'un des principaux apports de cette étude est une base de données plus détaillée et plus grande que celles disponibles dans la littérature. Cette base contient, pour plusieurs locuteurs, les tracés de tous les articulateurs du conduit vocal, pour les voyelles et les consonnes, alors que les études précédentes dans la littérature sont principalement basées sur les voyelles. Les contours du conduit vocal visibles dans l'IRM ont été tracés à la main en suivant le même protocole pour tous les locuteurs. Afin d'acquérir de la connaissance sur la variabilité inter-locuteur, nous avons caractérisé nos locuteurs en termes des stratégies articulatoires des différents articulateurs tels que la langue, les lèvres et le voile du palais. Nous avons constaté que chaque locuteur a sa propre stratégie pour produire des sons qui sont considérées comme équivalents du point de vue de la communication parlée. La variabilité de la langue, des lèvres et du voile du palais a été décomposé en une série de mouvements principaux par moyen d'une analyse en composantes principales (ACP). Nous avons remarqué que ces mouvements sont effectués dans des proportions différentes en fonction du locuteur. Par exemple, pour un déplacement donné de la mâchoire, la langue peut globalement se déplacer dans une proportion qui dépend du locuteur. Nous avons également remarqué que la protrusion, l'ouverture des lèvres, l'influence du mouvement de la mâchoire sur les lèvres, et la stratégie articulatoire du voile du palais peuvent également varier en fonction du locuteur. Par exemple, certains locuteurs replient le voile du palais contre la langue pour produire la consonne /ʁ/. Ces résultats constituent également une contribution importante à la connaissance de la variabilité inter-locuteur dans la production de la parole. Afin d'extraire un ensemble de patrons articulatoires communs à différents locuteurs dans la production de la parole (normalisation), nous avons basé notre approche sur des modèles linéaires construits à partir de données articulatoires. Des méthodes de décomposition linéaire multiple ont été appliquées aux contours de la langue, des lèvres et du voile du palais. L'évaluation de nos modèles repose sur deux critères: l'explication de la variance et l'erreur quadratique moyenne. Les modèles ont également été évalués en utilisant une procédure de validation croisée. Le but de l'utilisation de telle procédure était de vérifier la capacité de généralisation des modèles en évaluant leurs performances sur des données qui n'ont pas été utilisées pour leur construction. Afin de modéliser la langue, les lèvres et le voile du palais avec un ensemble commun de composantes pour tous les locuteurs, plusieurs méthodes de décomposition linéaires multiple ont été utilisées et comparées. L'ACP conjointe a donné les meilleurs résultats. En conclusion, nous avons constaté une réduction considérable en termes de nombre de composantes nécessaires lors de l'utilisation d'ACP conjointe, par rapport au nombre total de composantes nécessaires par les modèles ACP individuels de tous les locuteurs. Ces résultats de modélisation constituent une extension importante des études disponibles dans la littérature, à des locuteurs plus nombreux, incluant de plus nombreuses articulations (en particulier les consonnes) et de plus nombreux articulateurs (lèvres, voile du palais).

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Adaptation du locuteur'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles