Academic literature on the topic 'VAL (Vérification Automatique du Locuteur)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'VAL (Vérification Automatique du Locuteur).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Dissertations / Theses on the topic "VAL (Vérification Automatique du Locuteur)"

1

Kharroubi, Jamal. "Etude de techniques de classement "Machines à vecteurs supports" pour la vérification automatique du locuteur." Phd thesis, Télécom ParisTech, 2002. http://pastel.archives-ouvertes.fr/pastel-00001124.

Full text
Abstract:
Les SVM (Support Vector Machines) sont de nouvelles techniques d'apprentissage statistique proposées par V.Vapnik en 1995. Elles permettent d'aborder des problèmes très divers comme le classement, la régression, la fusion, etc... Depuis leur introduction dans le domaine de la Reconnaissance de Formes (RdF), plusieurs travaux ont pu montrer l'efficacité de ces techniques principalement en traitement d'image. L'idée essentielle des SVM consiste à projeter les données de l'espace d'entrée (appartenant à deux classes différentes) non-linéairement séparables dans un espace de plus grande dimension appelé espace de caractéristiques de façon à ce que les données deviennent linéairement séparables. Dans cet espace, la technique de construction de l'hyperplan optimal est utilisée pour calculer la fonction de classement séparant les deux classes. Dans ce travail de thèse, nous avons étudié les SVM comme techniques de classement pour la Vérification Automatique du Locuteur (VAL) en mode dépendant et indépendant du texte. Nous avons également étudié les SVM pour des tâches de fusion en réalisant des expériences concernant deux types de fusion, la fusion de méthodes et la fusion de modes. Dans le cadre du projet PICASSO, nous avons proposé un système de VAL en mode dépendant du texte utilisant les SVM dans une application de mots de passe publics. Dans ce système, une nouvelle modélisation basée sur la transcription phonétique des mots de passe a été proposée pour construire les vecteurs d'entrée pour notre classifieur SVM. En ce qui concerne notre étude des SVM en VAL en mode indépendant du texte, nous avons proposé des systèmes hybrides GMM-SVM. Dans ces systèmes, trois nouvelles représentations de données ont été proposées permettant de réunir l'efficacité des GMM en modélisation et les performances des SVM en décision. Ce travail entre dans le cadre de nos participations aux évaluations internationales NIST. Dans le cadre du projet BIOMET sur l'authentification biométrique mené par le GET (Groupe des Écoles de Télécommunications), nous avons étudié les SVM pour deux tâches de fusion. La première concerne la fusion de méthodes où nous avons fusionné les scores obtenus par les participants à la tâche ``One Speaker Detection'' aux évaluations NIST'2001. La seconde concerne la fusion de modes menée sur les scores obtenus sur les quatre différentes modalités de la base de données M2VTS. Les études que nous avons réalisées représentent une des premières tentatives d'appliquer les SVM dans le domaine de la VAL. Les résultats obtenus montrent que les SVM sont des techniques très efficaces et surtout très prometteuses que ce soit pour le classement ou la fusion.
APA, Harvard, Vancouver, ISO, and other styles
2

Mariéthoz, Johnny. "Algorithmes d'apprentissage discriminants en vérification du locuteur." Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/mariethoz_j.

Full text
Abstract:
This thesis addresses text-independent speaker verification from a machine learning point of view. We use the machine learning framework to better define the problem and to develop new unbiased performance measures and statistical tests to compare objectively new approaches. We propose a new interpretation of the state-of-the-art Gaussian Mixture Model based system and show that they are discriminant and equivalent to a mixture of linear classifiers. A general framework for score normalization is also given for both probability and non-probability based models. With this new framework we better show the hypotheses made for the well known Z- and T- score normalization techniques. Several uses of discriminant models are then proposed. In particular, we develop a new sequence kernel for Support Vector Machines that generalizes an other sequence kernel found in the literature. If the latter is limited to a polynomial form the former allows the use of infinite space kernels such as Radial Basis Functions. A variant of this kernel that finds the best match for each frame of the sequence to be compared, actually outperforms the state-of-the-art systems. As our new sequence kernel is computationally costly for long sequences, a clustering technique is proposed for reducing the complexity. We also address in this thesis some problems specific to speaker verification such as the fact that the classes are highly unbalanced. And the use of a specific intra- and inter-class distance distribution is proposed by modifying the kernel in order to assume a Gaussian noise distribution over negative examples. Even if this approach misses some theoretical justification, it gives very good empirical results and opens a new research direction<br>Dans cette thèse le problème de la vérification du locuteur indépendante du texte est abordée du point de vue de l'apprentissage statistique (machine learning). Les théories développées en apprentissage statistique permettent de mieux définir ce problème, de développer de nouvelles mesures de performance non-biaisées et de proposer de nouveaux tests statistiques afin de comparer objectivement les modèles proposés. Une nouvelle interprétation des modèles de l'état de l'art basée sur des mixtures de gaussiennes (GMM) montre que ces modèles sont en fait discriminants et équivalents à une mixture d'experts linéaires. Un cadre théorique général pour la normalisation des scores est aussi proposé pour des modèles probabilistes et non-probabilistes. Grâce à ce nouveau cadre théorique, les hypothèses faites lors de l'utilisation de la normalisation Z et T (T- and Z-norm) sont mises en évidence. Différents modèles discriminants sont proposés. On présente un nouveau noyau utilisé par des machines à vecteurs de support (SVM) qui permet de traîter des séquences. Ce noyau est en fait la généralisation d'un noyau déjà existant qui présente l'inconvénient d'être limité à une forme polynomiale. La nouvelle approche proposée permet la projection des données dans un espace de dimension infinie, comme c'est le cas, par exemple, avec l'utilisation d'un noyau gaussien. Une variante de ce noyau cherchant le meilleur vecteur acoustique (frame) dans la séquence à comparer, améliore les résultats actuellement connus. Comme cette approche est particulièrement coûteuse pour les séquences longues, un algorithme de regroupement (clustering) est utilisé pour en réduire la complexité. Finalement, cette thèse aborde aussi des problèmes spécifiques de la vé-ri-fi-ca-tion du locuteur, comme le fait que les nombres d'exemples positifs et négatifs sont très déséquilibrés et que la distribution des distances intra et inter classes est spécifique de ce type de problème. Ainsi, le noyau est modifié en ajoutant un bruit gaussien sur chaque exemple négatif. Même si cette approche manque de justification théorique pour l'instant, elle produit de très bons résultats empiriques et ouvre des perspectives intéressantes pour de futures recherches
APA, Harvard, Vancouver, ISO, and other styles
3

Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur." Paris, ENST, 2005. http://www.theses.fr/2005ENST0032.

Full text
Abstract:
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré<br>This thesis is concerned with the statistical modeling of speech signal applied to Speaker Verification (SV) using Bayesian Networks (BNs). The main idea of this work is to use BNs as a mathematical tool to model pertinent speech features keeping its relations. It combines theoretical and experimental work. The difference between systems and humans performance in SV is the quantity of information and the relationships between the sources of information used to make decisions. A single statistical framework that keeps the conditional dependence and independence relations between those variables is difficult to attain. Therefore, the use of BNs as a tool for modeling the available information and their independence and dependence relationships is proposed. The first part of this work reviews the main modules of a SV system, the possible sources of information as well as the basic concepts of graphical models. The second part deals with Modeling. A new approach to the problems associated with the SV systems is proposed. The problem of inference and learning (parameters and structure)in BNs are presented. In order to obtain an adapted structure the relations of conditional independence among the variables are learned directly from the data. These relations are then used in order to build an adapted BN. In particular, a new model adaptation technique for BN has been proposed. This adaptation is based on a measure between Conditional Probability Distributions for discrete variables and on Regression Matrix for continuous variables used to model the relationships. In a large database for the SV task, the results have confirmed the potential of use the BNs approach
APA, Harvard, Vancouver, ISO, and other styles
4

Scheffer, Nicolas. "Structuration de l'espace acoustique par le modèle générique pour la vérification du locuteur." Avignon, 2006. http://www.theses.fr/2006AVIG0146.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Blouet, Raphaël. "Approche probabiliste par arbres de décision pour la vérification automatique du locuteur sur architectures embarquées." Rennes 1, 2002. http://www.theses.fr/2002REN10151.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Louradour, Jérôme. "Noyaux de séquences pour la vérification du locuteur par machines à vecteurs de support." Toulouse 3, 2007. http://www.theses.fr/2007TOU30004.

Full text
Abstract:
La vérification automatique du locuteur (VAL) est une tâche de classification binaire, qui consiste à déterminer si un énoncé de parole a été prononcé ou non par un locuteur cible. Les Machines à Vecteurs de Support (SVMs) sont devenues un outil classique pour ce type de classification. Cette approche discriminante a suscité l’intérêt de nombreuses recherches en reconnaissance des formes, tant pour ses fondements théoriques solides que pour ses bonnes performances empiriques. Mais la mise en oeuvre des SVMs pour la VAL en situation réelle soulevant plusieurs problèmes relatifs aux caractéristiques propres à cette tâche. Il s’agit principalement de la taille élevée des corpus d’apprentissage et de la nature séquentielle des observations à classifier. Cette thèse est consacrée à l’exploration des noyaux de séquences pour la classification SVM du locuteur. Nous commen¸cons par faire un tour d’horizon des méthodes émergentes pour construire des noyaux de séquences. Ensuite nous proposons une nouvelle famille de noyaux en se basant sur une généralisation d’un noyau qui a fait ses preuves en VAL. Nous faisons l’analyse théorique et algorithmique de cette nouvelle famille avant de l’appliquer à la VAL par SVM. Après la mise en oeuvre des systèmes SVMs à base des différents noyaux que nous avons étudiés, nous comparons leurs performances sur le corpus NIST SRE 2005, à partir d’un protocole de développement commun. Enfin, nous introduisons un nouveau concept pour aborder le problème de VAL, dont le principe est de déterminer si deux séquences ont été prononcées par le même locuteur. L’utilisation des SVMs pour exploiter ce concept nous amène à définir une nouvelle catégorie de noyaux : les noyaux entre paires de séquences<br>This thesis is focused on the application of Support Vector Machines (SVM) to Automatic Text-Independent Speaker Verification. This speech processing task consists in determining whether a speech utterance was pronounced or not by a target speaker, without any constraint on the speech content. In order to apply a kernel method such as SVM to this binary classification of variable-length sequences, an appropriate approach is to use kernels that can handle sequences, and not acoustic vectors within sequences. As explained in the thesis report, both theoretical and practical reasons justify the effort of searching such kernels. The present study concentrates in exploring several aspects of kernels for sequences, and in applying them to a very large database speaker verification problem under realistic recording conditions. After reviewing emergent methods to conceive sequence kernels and presenting them in a unified framework, we propose a new family of such kernels : the Feature Space Normalized Sequence (FSNS) kernels. These kernels are a generalization of the GLDS kernel, which is now well-known for its efficiency in speaker verification. A theoretical and algorithmic study of FSNS kernels is carried out. In particular, several forms are introduced and justified, and a sparse greedy matrix approximation method is used to suggest an efficient and suitable implementation of FSNS kernels for speaker verification. .
APA, Harvard, Vancouver, ISO, and other styles
7

Larcher, Anthony. "Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée." Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00453645.

Full text
Abstract:
La vérification automatique du locuteur est une tâche de classification qui vise à confirmer ou infirmer l'identité d'un individu d'après une étude des caractéristiques spécifiques de sa voix. L'intégration de systèmes de vérification du locuteur sur des appareils embarqués impose de respecter deux types de contraintes, liées à cet environnement : - les contraintes matérielles, qui limitent fortement les ressources disponibles en termes de mémoire de stockage et de puissance de calcul disponibles ; - les contraintes ergonomiques, qui limitent la durée et le nombre des sessions d'entraînement ainsi que la durée des sessions de test. En reconnaissance du locuteur, la structure temporelle du signal de parole n'est pas exploitée par les approches état-de-l'art. Nous proposons d'utiliser cette information, à travers l'utilisation de mots de passe personnels, afin de compenser le manque de données d'apprentissage et de test. Une première étude nous a permis d'évaluer l'influence de la dépendance au texte sur l'approche état-de-l'art GMM/UBM (Gaussian Mixture Model/ Universal Background Model). Nous avons montré qu'une contrainte lexicale imposée à cette approche, généralement utilisée pour la reconnaissance du locuteur indépendante du texte, permet de réduire de près de 30% (en relatif) le taux d'erreurs obtenu dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. Dans ce document, nous présentons une architecture acoustique spécifique qui permet d'exploiter à moindre coût la structure temporelle des mots de passe choisis par les clients. Cette architecture hiérarchique à trois niveaux permet une spécialisation progressive des modèles acoustiques. Un modèle générique représente l'ensemble de l'espace acoustique. Chaque locuteur est représenté par une mixture de Gaussiennes qui dérive du modèle du monde générique du premier niveau. Le troisième niveau de notre architecture est formé de modèles de Markov semi-continus (SCHMM), qui permettent de modéliser la structure temporelle des mots de passe tout en intégrant l'information spécifique au locuteur, modélisée par le modèle GMM du deuxième niveau. Chaque état du modèle SCHMM d'un mot de passe est estimé, relativement au modèle indépendant du texte de ce locuteur, par adaptation des paramètres de poids des distributions Gaussiennes de ce GMM. Cette prise en compte de la structure temporelle des mots de passe permet de réduire de 60% le taux d'égales erreurs obtenu lorsque les imposteurs prononcent un énoncé différent du mot de passe des clients. Pour renforcer la modélisation de la structure temporelle des mots de passe, nous proposons d'intégrer une information issue d'un processus externe au sein de notre architecture acoustique hiérarchique. Des points de synchronisation forts, extraits du signal de parole, sont utilisés pour contraindre l'apprentissage des modèles de mots de passe durant la phase d'enrôlement. Les points de synchronisation obtenus lors de la phase de test, selon le même procédé, permettent de contraindre le décodage Viterbi utilisé, afin de faire correspondre la structure de la séquence avec celle du modèle testé. Cette approche a été évaluée sur la base de données audio-vidéo MyIdea grâce à une information issue d'un alignement phonétique. Nous avons montré que l'ajout d'une contrainte de synchronisation au sein de notre approche acoustique permet de dégrader les scores imposteurs et ainsi de diminuer le taux d'égales erreurs de 20% (en relatif) dans le cas où les imposteurs ignorent le mot de passe des clients tout en assurant des performances équivalentes à celles des approches état-de-l'art dans le cas où les imposteurs connaissent les mots de passe. L'usage de la modalité vidéo nous apparaît difficilement conciliable avec la limitation des ressources imposée par le contexte embarqué. Nous avons proposé un traitement simple du flux vidéo, respectant ces contraintes, qui n'a cependant pas permis d'extraire une information pertinente. L'usage d'une modalité supplémentaire permettrait néanmoins d'utiliser les différentes informations structurelles pour déjouer d'éventuelles impostures par play-back. Ce travail ouvre ainsi de nombreuses perspectives, relatives à l'utilisation d'information structurelle dans le cadre de la vérification du locuteur et aux approches de reconnaissance du locuteur assistée par la modalité vidéo
APA, Harvard, Vancouver, ISO, and other styles
8

Benlahouar, Azzouz. "Nouvelles techniques de segmentation pour caractériser le timbre vocal d'un locuteur en vue de la vérification automatique de l'identité." Mémoire, École de technologie supérieure, 2003. http://espace.etsmtl.ca/778/1/BENLAHOUAR_Azzouz.pdf.

Full text
Abstract:
Dans ce travail de recherche nous avons développé de nouvelles techniques de segmentation fréquentielle caractérisant l'empreinte vocale en vu de l'authentification de l'identité du locuteur. Nous avons proposé un nouvel algorithme MSAAB (Meilleure Structure d'Arbre ABstrait) impliquant une analyse en ondelettes et une analyse en composante principale. À partir d'un signal vocal d'un locuteur donné, nous pouvons déterminer les paramètres acoustiques appropriés qui lui permettent d'être discriminant. En utilisant l'algorithme MSAAB, nous avons effectué une série d'expériences pour la vérification de l'identité par la voix en mode texte-dépendent et en mode texte-indépendant. Durant nos expériences, nous avons utilisé deux types de corpus: Yoho, une base de données propre et Spidre, une base de données téléphonique bruitée. Les paramètres extraits sont utilisés comme une entrée du système de vérification d'identité. Celui-ci utilise une modélisation Markovienne. Les résultats obtenus ont été comparés avec d'autres types de paramètres, Fourier notamment. La robustesse des algorithmes proposés a pu être vérifiée et confirmée.
APA, Harvard, Vancouver, ISO, and other styles
9

Valenti, Giacomo. "Secure, efficient automatic speaker verification for embedded applications." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS471.

Full text
Abstract:
Cette thèse se concentre uniquement sur la vérification automatique du locuteur, tâche de classification binaire, en deux aspects : l'efficacité et la sécurité. Chacun des aspects sera exploré dans deux itérations : sur l'ASV traditionnel (chapitres II, III et IV) et l'ASV expérimentale (chapitres V, VI et VII). Les chapitres II et V sont des revues de littérature, leur but est de mettre en perspective les contributions dans le chapitres que respectivement les suivent. Chapitre II est centré sur la réduction des donnés nécessaire pour entrainer un modèle de locuteur, dans ce cas l’efficacité est ce qui permet de rendre un système facilement usable par l’utilisateur final dans un contexte des application embarquées. Chapitre III se concentre sur les mots de passe oraux et sur la possibilité de donner une mesure de sécurité en fonction du contenu textuel et de l’énonciation au moment du choix, exactement comme pour les mots de passe écrits. Dans le chapitre V une approche génétique pour l’évolution des topologies neuronaux est appliqué pour la première fois au flux audio brut, pour l’identification du locuteur. Chapitre VI voit cette même approche appliquée à la reconnaissance des attaques de mystification de l’identité<br>This industrial CIFRE PhD thesis addresses automatic speaker verification (ASV) issues in the context of embedded applications. The first part of this thesis focuses on more traditional problems and topics. The first work investigates the minimum enrolment data requirements for a practical, text-dependent short-utterance ASV system. Contributions in part A of the thesis consist in a statistical analysis whose objective is to isolate text-dependent factors and prove they are consistent across different sets of speakers. For very short utterances, the influence of a specific text content on the system performance can be considered a speaker-independent factor. Part B of the thesis focuses on neural network-based solutions. While it was clear that neural networks and deep learning were becoming state-of-the-art in several machine learning domains, their use for embedded solutions was hindered by their complexity. Contributions described in the second part of the thesis comprise blue-sky, experimental research which tackles the substitution of hand-crafted, traditional speaker features in favour of operating directly upon the audio waveform and the search for optimal network architectures and weights by means of genetic algorithms. This work is the most fundamental contribution: lightweight, neuro-evolved network structures which are able to learn from the raw audio input
APA, Harvard, Vancouver, ISO, and other styles
10

Ottens, Kévin. "Un système multi-agent adaptatif pour la construction d'ontologies à partir de textes." Phd thesis, Université Paul Sabatier - Toulouse III, 2007. http://tel.archives-ouvertes.fr/tel-00176883.

Full text
Abstract:
Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels. Ainsi, il doit faciliter l'accès à l'information pour les utilisateurs. Or, un des enjeux du succès du Web sémantique est la disponibilité d'ontologies qui sont des représentations de connaissances formalisées et exploitables par des systèmes informatiques pour leur communication. Malheureusement leur construction est généralement longue et coûteuse, et leur maintenance soulève des problèmes jusqu'ici sous-estimés. S'appuyer sur des textes pour la conception d'ontologies est vu comme une issue possible à leur coût, malgré les difficultés inhérentes à l'exploration d'analyses textuelles.<br /><br />Parce que l'ontologie doit être maintenue, et parce qu'elle peut-être vue comme un système complexe constitué de concepts, nous proposons d'utiliser les systèmes multi-agents adaptatifs pour semi-automatiser le processus de construction des ontologies à partir de texte. L'état stable de ces systèmes résulte des interactions coopératives entre les agents logiciels qui les constituent. Dans notre cas, les agents utilisent des algorithmes distribués d'analyse statistique pour trouver la structure la plus satisfaisante d'après une analyse syntaxique et distributionnelle des textes. L'utilisateur peut alors valider, critiquer ou modifier des parties de cette structure d'agents, qui est la base de l'ontologie en devenir, pour la rendre conforme à ses objectifs et à sa vision du domaine modélisé. En retour, les agents se réorganisent pour satisfaire les nouvelles contraintes introduites. Les ontologies habituellement fixées deviennent ici dynamiques, leur conception devient « vivante ». Ce sont les principes sous-jacents de notre système nommé Dynamo.<br /><br />La pertinence de cette approche a été mise à l'épreuve par des expérimentations visant à évaluer la complexité algorithmique de notre système, et par son utilisation en conditions réelles. Dans ce mémoire, nous présentons et analysons les résultats obtenus.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography