Log in

Relevant bibliographies by topics / Parole, Systèmes de traitement de la / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Parole, Systèmes de traitement de la.

Dissertations / Theses on the topic 'Parole, Systèmes de traitement de la'

Author: Grafiati

Published: 4 June 2021

Last updated: 15 February 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Parole, Systèmes de traitement de la.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Choumane, Ali. "Traitement générique des références dans le cadre multimodal parole-image-tactile." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Full text

Abstract:

Nous nous intéressons dans cette thèse aux systèmes de communication homme-machine multimodale qui utilisent les modes suivants : la parole, le geste et le visuel. L'usager communique avec le système par un énoncé oral en langue naturelle et/ou un geste. Dans sa requête, encodée sur les différentes modalités, l'usager exprime son but et désigne des objets (référents) nécessaires à la réalisation de ce but. Le système doit identifier de manière précise et non ambiguë ces objets désignés. Afin d'améliorer la compréhension automatique des requêtes multimodales dans ce contexte, nous proposons un ensemble générique de traitement des modalités, de fusion et de résolution des expressions référentielles. Les principaux aspects de la réalisation consistent en les modélisations du traitement de la langue naturelle dans le contexte de la parole, du traitement du geste et du contexte visuel (utilisation de la saillance visuelle) en prenant en compte les difficultés inhérentes en contexte de la communication multimodale : erreur de reconnaissance de la parole, ambiguïté de la langue naturelle, imprécision du geste due à la performance de l'usager, ambiguïté dans la désignation due à la perception des objets affichés ou à la topologie de l'affichage. Pour l'interprétation complète de la requête nous proposons une méthode de fusion/vérification des résultats des traitements de chaque modalité pour trouver les objets désignés par l'usager
We are interested in multimodal human-computer communication systems that use the following modes: speech, gesture and vision. The user communicates with the system by oral utterance in natural language and/or by gesture. The user's request contains his/her goal and the designation of objects (referents) required to the goal realisation. The system should identify in a precise and non ambiguous way the designated objects. In this context, we aim to improve the understanding process of multimodal requests. Hence, we propose a generic set of processing of modalities, for fusion and for reference resolution. The main aspects of the realisation consist in modeling the natural language processing in speech environment, the gesture processing and the visual context (visual salience use) while taking into account the difficulties in multimodal context: speech recognition errors, natural language ambiguity, gesture imprecision due to the user performance, designation ambiguity due to the perception of the displayed objects or to the display topology. To complete the interpretation of the user's request, we propose a method for fusion/verification of modalities processing results to find the designated objects by the user

APA, Harvard, Vancouver, ISO, and other styles

2

Mauclair, Julie. "Mesures de confiance en traitement automatique de la parole et applications." Le Mans, 2006. http://cyberdoc.univ-lemans.fr/theses/2006/2006LEMA1027.pdf.

Full text

Abstract:

Ce travail de thèse se place dans le contexte de la campagne d'évaluation ESTER (Evaluation des Systèmes de Transcription enrichie d'Emissions Radiophonique). L'objectif de ce travail de thèse consiste dans un premier temps à proposer des indicateurs ou mesures de confiance permettant de distinguer les zones correctes ou erronées au sein des hypothèses de reconnaissance fournies par un système de transcription automatique de la parole (STAP). Dans un second temps, deux types d'applications utilisant des mesures de confiance sont appréhendées : - la collecte de corpora de transcriptions automatiques fiables alignés sur de la parole enregistrée, par exemple pour augmenter la taille des corpora d'apprentissage disponibles pour l'estimation de modèles acoustiques ; - l'identification nommée automatique du locuteur, qui consiste à extraire des transcriptions automatiques des noms de locuteurs et à les associer aux étiquettes anonymes utilisées par un système d'indexation. Trois mesures de confiance seront proposées, une mesure de confiance dérivée des sorties acoustiques du STAP, une mesure de confiance basée sur le repli du modèle de langage et une mesure de confiance provenant de la probabilité a posteriori d'un mot. A l'aide de métriques d'évaluation de mesures de confiance, ces trois mesures sont comparées et la meilleure combinaison des trois est calculée. Cette combinaison permet d'accroître les performances de chacun des trois mesures dans la détection des zones erronées ou correctes. La première application vise à accroître les performances du STAP utilisé par le LlUM en augmentant de manière non supervisée les données d'apprentissage des modèles acoustiques. Ainsi, les zones de parole ayant un degré de confiance élevé dans un deuxième corpus transcrit automatiquement sont prélevées et ajoutées au corpus d'apprentissage initial transcrit manuellement. Grâce à cet ajout, les performances du SRAP sont significativement améliorées en termes de taux d'erreur sur les mots. Enfin, dans le cadre de l'identification du locuteur d'un document sonore, des scores de confiance sont utilisés pour déterminer le nom du locuteur directement à partir de la transcription. Environ 70% de la durée totale des émissions est correctement indexée en locuteur sur un corpus de test.

APA, Harvard, Vancouver, ISO, and other styles

3

Leboeuf, Jérôme. "Un système connexionniste appliqué au traitement automatique de la parole." Paris 11, 1988. http://www.theses.fr/1988PA112276.

Full text

Abstract:

Le système connexionniste ADAM est une mémoire associative, auto-adaptative, traitant des formes comportant une dimension temporelle. La réalisation d'une simulation logicielle nous a permis d'étudier son comportement et de mettre en évidence certains paramètres. Le signal de parole est transformé en événements discrets, chaque événement correspondant à un saut d'énergie dans une bande de fréquence. La forte variabilité des formes d'entrée nous a conduit à introduire un mécanisme de comparaison globale dont l'architecture s'inspire de celle du modèle. Les tests de reconnaissance effectués ont montré l'intérêt de notre approche pour la reconnaissance de signal avec bruit additif de parole
The adaptative, dynamic and associative model ADAM is aimed at processing patterns that involve a temporal dimension. The design of a software simulation allowed us to study its behavior and to show the role of its parameters. The speech signal is transformed into a set of events, each event corresponding to an energy gap within a frequency channel. The high variability of the resulting input patterns leads us to propose a mecanism of global comparison, the architecture of which is derived from the initial model. The recognition tests showed the advantage of our approach in the treatment of speech signal disturbed with added speech

APA, Harvard, Vancouver, ISO, and other styles

4

Bazillon, Thierry. "Transcription et traitement manuel de la parole spontanée pour sa reconnaissance automatique." Phd thesis, Université du Maine, 2011. http://tel.archives-ouvertes.fr/tel-00598427.

Full text

Abstract:

Le projet EPAC est le point de départ de nos travaux de recherche. Nous présentons ce contexte de travail dans notre premier chapitre.Dans un deuxième temps, nous nous intéressons à la tâche de transcription de la parole. Nous en exposerons quelques jalons, ainsi qu'un inventaire des corpus oraux disponibles aujourd'hui. Enfin, nous comparons deux méthodes de transcription : manuelle et assistée. Par la suite, nous réalisons une étude comparative de huit logiciels d'aide à la transcription. Cela afin de démontrer que, suivant les situations, certains sont plus indiqués que d'autres. Le codage des données est l'objet de notre quatrième chapitre. Peut-on facilement échanger des transcriptions? Nous démontrerons que l'interopérabilité est un domaine où beaucoup de travail reste à faire. Enfin, nous terminons par une analyse détaillée de ce que nous appelons la parole spontanée. Par différents angles, définitions et expériences, nous tentons de circonscrire ce que cette appellation recouvre.

APA, Harvard, Vancouver, ISO, and other styles

5

Tihoni, Jacqueline. "Geph : un générateur phonologique expert. Applications au traitement automatique de la parole." Toulouse 3, 1991. http://www.theses.fr/1991TOU30186.

Full text

Abstract:

La composante phonologique d'une grammaire, qui explicite la relation entre la structure superficielle de la phrase et ses diverses prononciations possibles, doit etre mise en uvre des que l'on veut traiter la parole continue en synthese ou en reconnaissance. Dans une etude bibliographique preliminaire, nous mettons en relief les difficultes de la formalisation d'un tel systeme. Puis nous proposons une realisation par une approche systeme expert. Le systeme presente est la troisieme version de geph (generateur phonologique). Il comporte des extensions originales telles qu'une structuration de la base de regles en blocs qui permet ainsi une application en parallele et en serie des regles, un fonctionnement de l'applicateur de regles en mode deterministe ou indeterministe, des outils d'aide a l'elaboration de tests. . . Des diacritiques ont ete definis pour rendre compte de certains phenomenes phonologiques lies a la variabilite inter- et intra-locuteur. En outre, les formes phonetiques sont generees en fonction d'un dialecte et/ou d'un idiolecte et d'un style d'elocution, a un niveau de description phonetique desire. Elles sont, de plus, munies d'un score de realisation deduit de la plausibilite des regles phonologiques satisfaites. La structure des representations phonologiques a elle-meme ete modifiee par l'introduction d'une notion nouvelle: les gpm (pour groupes a prononciations multiples qui equivalent a plusieurs sequences phonetiques alternatives) particulierement adaptes pour traduire l'indeterminisme au niveau de la prononciation. Plusieurs versions particulieres du systeme de regles ont ete adoptees en vue d'applications de transcription automatique d'enonces orthographiques 1) pour l'annotation des corpus de parole enregistree, 2) pour la generation de corpus phonetiques et prosodiques d'evaluation des systemes de reconnaissance automatique de la parole et 3) pour les besoins d'un systeme de synthese de la parole a partir du texte, texor, developpe par une equipe du laboratoire. Ces applications ont necessite l'introduction de marques prosodiques dans geph

APA, Harvard, Vancouver, ISO, and other styles

6

Veloz, Guerrero Arturo. "Un système de compréhension de parole continue sur microprocesseur." Paris 11, 1985. http://www.theses.fr/1985PA112240.

Full text

Abstract:

Cette thèse présente la réalisation d’un système de compréhension de parole continue sur une architecture informatique modeste. Elle concerne la compréhension de parole continue dans le cadre d’applications précises et des langages artificiels. Le système utilise dans un premier temps, la technique de reconnaissance analytique donnant comme résultat un treillis phonétique de la phrase prononcée. Ensuite, dans un deuxième temps, le système utilise un algorithme de programmation dynamique à une seule passe, guidée par la syntaxe du langage d’application, afin de retrouver la phrase immergée dans le treillis phonétique. Un outil d’aide de génération de données linguistiques a été ajouté au système, qui permet à l’utilisateur de déterminer la syntaxe de son langage d »application, les mots étant introduits sous leur forme graphémique. Cet outil travail alors phonétiquement chacun des mots du lexique en tenant compte de certaines variantes phonologiques, et traduit la représentation déclarative en un réseau d’états fini, adapté à l’algorithme de reconnaissance
This thesis describes the implementation of a speech understanding system on a microprocessor. The system is designed to accept continuous speech from one speaker and to work within the context of a limited task situation and small vocabularies. The system utilizes phonetic recognition at the phonetic level and an optimal one-pass dynamic programming algorithm at the lexical and syntactic levels. The system has an interactive program for the definition of grammars for a given specific task language and a program of orthographic-phonetic translation that takes into account some phonological variations of words

APA, Harvard, Vancouver, ISO, and other styles

7

Spalanzani, Anne. "Algorithmes évolutionnaires pour l'étude de la robustesse des systèmes de reconnaissance automatique de la parole." Phd thesis, Université Joseph Fourier (Grenoble), 1999. http://tel.archives-ouvertes.fr/tel-00004850.

Full text

Abstract:

Les systèmes de reconnaissance automatique de la parole sont de plus en plus répandus et utilisés dans des conditions acoustiques très variées, par des locuteurs très différents. De ce fait, ces systèmes, généralement conçus en laboratoire, doivent être robustes afin de garder des performances optimales en situation réelle. Les travaux que nous avons effectués sont partis de l'idée que si les systèmes de reconnaissance étaient capables de s'auto-modifier dans le temps, afin de s'adapter aux changements de leurs environnements acoustiques, ils pourraient être beaucoup plus robustes. En effet, les organismes vivants ont montré à la fois des capacités à sélectionner les informations utiles et à modifier leur traitement en vue de survivre dans leur environnement. Dans un premier temps, nous avons cherché à adapter le système de reconnaissance lui-même aux différents environnements. Nous avons étudié les capacités du système à s'adapter aux changements de conditions acoustiques, à l'aide d'une approche locale (par rétro-propagation du gradient) et d'une approche globale (par algorithmes évolutionnaires), en vue de trouver un système optimal. Dans un second temps, nous nous sommes placée dans le cadre du traitement des données en entrée du système. Partant d'une base de projection issue d'une analyse en composantes principales, nous avons cherché à trouver à l'aide des algorithmes évolutionnaires une base de projection adaptée à chaque environnement rencontré et permettant de retrouver les conditions acoustiques connues du système. Nous avons mis en place une plate-forme de simulation permettant de faire évoluer des populations de systèmes de reconnaissance. Les résultats obtenus montrent qu'en moyenne l'hybridation des algorithmes évolutionnaires et des techniques de reconnaissance classiques améliore sensiblement, et de manière stable, les performances du système de reconnaissance, et ceci dans les deux types d'hybridation que nous avons testés.

APA, Harvard, Vancouver, ISO, and other styles

8

Loiselle, Stéphane. "Traitement bio-inspiré de la parole pour système de reconnaissance vocale." Thèse, Université de Sherbrooke, 2010. http://savoirs.usherbrooke.ca/handle/11143/1952.

Full text

Abstract:

Cette thèse présente un traitement inspiré du fonctionnement du système auditif pour améliorer la reconnaissance vocale. Pour y parvenir, le signal de la parole est filtré par un banc de filtres et compressé pour en produire une représentation auditive. L'innovation de l'approche proposée se situe dans l'extraction des éléments acoustiques (formants, transitions et onsets ) à partir de la représentation obtenue. En effet, une combinaison de détecteurs composés de neurones à décharges permet de révéler la présence de ces éléments et génère ainsi une séquence d'événements pour caractériser le contenu du signal. Dans le but d'évaluer la performance du traitement présenté, la séquence d'événements est adaptée à un système de reconnaissance vocale conventionnel, pour une tâche de reconnaissance de chiffres isolés prononcés en anglais. Pour ces tests, la séquence d'événements agit alors comme une sélection de trames automatique pour la génération des observations (coefficients cepstraux). En comparant les résultats de la reconnaissance du prototype et du système de reconnaissance original, on remarque que les deux systèmes reconnaissent très bien les chiffres prononcés dans des conditions optimales et que le système original est légèrement plus performant. Par contre, la différence observée au niveau des taux de reconnaissance diminue lorsqu'une réverbération vient affecter les données à reconnaître et les performances de l'approche proposée parviennent à dépasser celles du système de référence. De plus, la sélection de trames automatique offre de meilleures performances dans des conditions bruitées. Enfin, l'approche proposée se base sur des caractéristiques dans le temps en fonction de la nature du signal, permet une sélection plus intelligente des données qui se traduit en une parcimonie temporelle, présente un potentiel fort intéressant pour la reconnaissance vocale sous conditions adverses et utilise une détection des caractéristiques qui peut être utilisée comme séquence d'impulsions compatible avec les réseaux de neurones à décharges.

APA, Harvard, Vancouver, ISO, and other styles

9

Ahafhaf, Mohamed. "Evaluation des systèmes de dialogue oral homme-machine : quelques éléments linguistiques appliqués au paradigme DCR." Grenoble 3, 2004. http://www.theses.fr/2004GRE39048.

Full text

Abstract:

Durant la dernière décennie, la communication orale homme-machine (CHM orale) a atteint une maturité que traduit l'apparition d'applications réelles telles que, par exemple, le système de réservation par téléphone des chemins de fer néerlandais. D'une manière générale, l'ensemble des traitements automatiques impliqués dans la CHM orale a connu des progrès significatifs. Plusieurs approches de la langue parlée basées sur des différentes théories ont été proposées et implémentées. Afin d'examiner l'efficacité de ces approches, différentes méthodes d'évaluation ont été développées. Parmi elles, la méthode utilisée dans l'application ATIS (Air Transport Information Systems) du projet DARPA (Defense Advanced Research Project Agency). En se limitant à un champ applicatif précis (ATIS) ainsi qu'aux taux de robustesse globaux des systèmes, cette méthode ne satisfait pas le principe de généricité et encore moins celui du diagnostic, d'où la nécessité de méthodes à caractère prédictif. C'est pour répondre à ces insuffisances que la méthode DCR (Demande, Contrôle, Réponse) a été proposée en 1997. Elle se veut qualitative, générique et diagnostique. Nous avons repris DCR en vue d'une extension, d'abord en l'appliquant sur un ensemble de phénomènes linguistiques. Nous avons ensuite proposé une typologie linguistique pour chaque phénomène et construit des règles syntaxiques permettant une génération systématique et objective des énoncés. Le résultat est une batterie de tests utilisée dans une phase d'expérimentation pour tester deux systèmes de CHM orale.

APA, Harvard, Vancouver, ISO, and other styles

10

Villaneau, Jeanne. "Contribution au traitement syntaxico-pragmatique de la langue naturelle parlée : approche logique pour la compréhension de la parole." Lorient, 2003. http://www.theses.fr/2003LORIS026.

Full text

Abstract:

Les systèmes de dialogue Oral Homme-Machine actuellement opérationnels sont conçus pour les tâches extrêmement précises. Leur développement dépend directement de celui de la Compréhension Automatique de la Parole. Or, celle-ci se heurte de nombreux problèmes : complexité de la relation forme linguistique-sens, erreurs de la reconnaissance vocale et spécificités de l'expression orale. Le mémoire décrit un système de compréhension de la parole conçu pour une famille de tâches dans un domaine bien délimité. L'approche est logique ; l'analyse se fait par étapes : elle débute par une analyse syntaxique partielle qui repose sur l'application de règles drivées de celles des grammaires catégorielles de type AB. Une ontologie du domaine permet de s'appuyer sur des critères sémantiques pour opérer la composition des constituants ainsi obtenus, avec un relâchement progressif des contraintes syntaxiques. Les valuations du système montrent la validité de cette approche.

APA, Harvard, Vancouver, ISO, and other styles

11

Goulian, Jerome. "Stratégie d'analyse détaillée pour la compréhension automatique robuste de la parole." Lorient, 2002. http://www.theses.fr/2002LORIS021.

Full text

Abstract:

Nous présentons une stratégie robuste d analyse des énonces oraux pour la compréhension hors-contexte de la parole en dialogue homme-machine finalisé. Nous faisons l'hypothese qu'une analyse détaillée des énoncés oraux (associant syntaxe et sémantique est essentielle au traitement correct des énonces et est la condition nécessaire au developpement d'applications non plus limitées a des cadres très finalisés mais faisant preuve d'une certaine généricité. Dans le système proposé ROMUS applique au renseignement touristique, une analyse syntaxique partielle de surface (cascades de transducteurs) permet tout dabord la segmentation de l'énonce en groupes minimaux élémentaires. Cette etape, générique, est motivée par la prise en compte explicite et intrinsèque des régularités observées dans les productions orales. Une analyse globale des dépendances sémantico-pragamatiques entre les segments (grammaires des liens) permet ensuite de déduire la représentation sémantique de l'énoncé
This PHD focusses on speech understanding in man-machine communication. We discuss the issue of how a speech understanding system can be made robust against spontaneous speech phenomena as well as achieving a detailed analysis of spoken French. We argue that a detailed linguistic analysis (with both syntax and semantics) is essential for correctly process spoken utterances and is also a necesary condition to develop applications that are not entirely dedicated to a very specific task but present sufficient genericity. The system presented (ROMUS) implements speech understanding in a two-satge process. The first one achieves a finite-state shallow parsing consists in segmenting the utterance into basic units (spoken adaptated chunks). This stage is generic and is motivated by the regularities observed in spoken French. The second one, a Link Grammar parser, looks for inter-chunks dependencies in order to build a rich representation of the semantic structure of the utterance

APA, Harvard, Vancouver, ISO, and other styles

12

Cotto, Daniel. "Traitement automatique des textes en vue de la synthèse vocale." Toulouse 3, 1992. http://www.theses.fr/1992TOU30225.

Full text

Abstract:

Ce travail se situe dans le cadre du traitement automatique du langage naturel. Nous nous interessons plus particulierement a la synthese de texte quelconque. Notre objectif est d'ameliorer la qualite des synthetiseurs vocaux actuellement commercialises pour, d'une part, offrir aux handicapes visuels une interface d'entree-sortie de substitution plus conviviale et, d'autre part, faire en sorte qu'un jour la synthese vocale soit consideree comme une interface complementaire aux entrees-sorties standards. Nous exposons la problematique de la synthese vocale a partir de texte ainsi que diverses methodes permettant d'effectuer une analyse linguistique des textes. Cette etude nous a conduit au developpement de deux outils de pretraitement linguistiques: texor et texorplus. Le developpement de texorplus a ete effectue sous l'environnement de assp egalement realise durant cette these. Texor est un environnement parametrable pour synthetiser des textes quelconques en se fixant comme priorite un temps de reponse reduit. Il se compose d'un module metatextuel et d'un module textuel pour notamment prendre en compte les traits de presentation et les inattendus (sigles, abreviations,. . . ). Texorplus a pour but de prendre en compte les textes quelconques en se fixant comme priorite une prosodie de qualite. Il effectue a l'aide de assp une analyse syntaxique des phrases pour positionner des marqueurs prosodiques. Assp est un analyseur linguistique pouvant prendre en compte certains aspects syntaxiques, semantiques voire pragmatiques du langage. Pour realiser l'analyse, celui-ci combine les formalismes bases sur l'unification aux reseaux de transition augmentes

APA, Harvard, Vancouver, ISO, and other styles

13

Lecorvé, Gwénolé. "Adaptation thématique non supervisée d'un système de reconnaissance automatique de la parole." Phd thesis, INSA de Rennes, 2010. http://tel.archives-ouvertes.fr/tel-00566824.

Full text

Abstract:

Les systèmes actuels de reconnaissance automatique de la parole (RAP) reposent sur un modèle de langue (ML) qui les aide à déterminer les hypothèses de transcription les plus probables. Pour cela, le ML recense des probabilités de courtes séquences de mots, appelées n-grammes, fondées sur un vocabulaire fini. Ces ML et vocabulaire sont estimés une fois pour toutes à partir d'un vaste corpus de textes traitant de sujets variés. En conséquence, les systèmes actuels souffrent d'un manque de spécificité lorsqu'il s'agit de transcrire des documents thématiquement marqués. Pour pallier ce problème, nous proposons un nouveau processus d'adaptation thématique non supervisée du ML et du vocabulaire. Sur la base d'une première transcription automatique d'un document audio, ce processus consiste à récupérer sur Internet des textes du même thème que le document, textes à partir desquels nous réestimons le ML et enrichissons le vocabulaire. Ces composants adaptés servent alors à produire une nouvelle transcription dont la qualité est espérée meilleure. Ce processus est particulièrement original car il se préserve de toute connaissance a priori sur les éventuels thèmes des documents à transcrire et il intègre des techniques de traitement automatique des langues. De plus, nous apportons des contributions pour chaque étape du processus. Tout d'abord, étant donnée la transcription initiale d'un document audio, nous avons aménagé le critère tf-idf , issu du domaine de la recherche d'information, aux spécificités de l'oral afin de caractériser le thème du document par des mots-clés extraits automatiquement. Via un moteur de recherche sur Internet, ces mots-clés nous permettent de récupérer des pages Web que nous filtrons afin d'assurer leur cohérence thématique avec le document audio. Ensuite, nous avons proposé une nouvelle technique de réestimation thématique du ML. En extrayant des mots et séquences de mots spécifiques au thème considéré à partir des corpora Web, nous utilisons le cadre de l'adaptation par minimum d'information discriminante pour ne modifier que les probabilités des n-grammes propres au thème, laissant les autres probabilités inchangées. Enfin, nous montrons également que les corpora extraits du Web peuvent servir à repérer des mots hors vocabulaire spécifiques aux thèmes. Nous proposons une technique originale qui permet d'apprendre ces nouveaux mots au système et, notamment, de les intégrer dans le ML en déterminant automatiquement dans quels n-grammes ils sont susceptibles d'apparaître. Pour cela, chaque nouveau mot est assimilé à d'autres, déjà connus du système, avec lesquels il partage une relation paradigmatique. Nos expériences, menées sur des émissions d'actualités radiodiffusées, montrent que l'ensemble de ces traitements aboutit à des améliorations significatives du taux de reconnaissance d'un système de RAP.

APA, Harvard, Vancouver, ISO, and other styles

14

Mathieu, François-Arnould. "Prise en compte de contraintes pragmatiques pour guider un système de reconnaissance de la parole : le système COMPPA[S. L. ]." Nancy 1, 1997. http://www.theses.fr/1997NAN10022.

Full text

Abstract:

Pour mettre en oeuvre des systèmes de reconnaissance automatique de la parole fiables et efficaces, il est impératif de restreindre la combinatoire des énoncés qui peuvent être reconnus. Dans le cadre des applications de commande vocale, cela conduit à concevoir des interfaces dont le langage est difficile à apprendre, avec pour conséquence d'en limiter l'usage aux cas où les interfaces traditionnelles sont inutilisables (chapitre 1). Nous proposons de tenir compte de l'état de l'application et du dialogue pour définir dynamiquement le langage acceptable : un énoncé comme" effacer le cube vert" n'est pas prioritaire pour être reconnu s'il n'y a pas alors de cube vert dans l'application ; un énoncé comme "l'effacer" n'est pas reconnu si l'usage du pronom n'est pas pertinent dans le contexte de dialogue. Guider la reconnaissance par ces considérations d'ordre pragmatique permet de mettre à la disposition de l'utilisateur un langage moins contraint dans sa forme, donc plus naturel (chapitre 2). [. . . ]
In order to develop robust and efficient speech recognition system, the number of possible hypotheses corresponding to a spoken utterance has to be drastically reduced. In the specific framework of vocal command systems, this often leads to the design of languages that are difficult to learn. As a consequence, the use of these systems is limited to environment where neither keyboard, nor mouse can be used (chapter 1). Our purpose is then to take into account the application and dialogue context to define the accepted language dynamically. For example, the command "erase the green cube" will not be considered at first if there is no instance of a green cube in the application at the time the sentence is uttered. Similarly, the utterance "erase it" will be eliminated if the pronoun "it" is irrelevant in the current dialogue context. Constraining the recognition process by means of such pragmatic considerations allows us to accept a more natural language (chapter 2). [. . . ]

APA, Harvard, Vancouver, ISO, and other styles

15

Camelin, Nathalie. "Stratégies robustes de compréhension de la parole basées sur des méthodes de classification automatique." Avignon, 2007. http://www.theses.fr/2007AVIG0149.

Full text

Abstract:

Cette thèse concerne le problème de la compréhension automatique de la parole dans des applications acceptant de la parole téléphonique spontanée multilocuteurs. L'étude consiste en l'intégration de méthodes de classification automatique dans les processus de décodage et de compréhension de la parole. Nos travaux portent sur l'adaptation de ces méthodes, ayant obtenu d'excellents résultats sur le langage écrit, aux particularités des sorties d'un système de reconnaissance automatique de parole. La principale difficulté de traitement de ce type de données réside dans le caractère incertain des paramètres d'entrée des classifieurs. Parmi toutes les méthodes de classification existantes, nous avons choisi d'en utiliser trois. La première est à base d'arbres de décisions sémantiques, les deux autres, considérées par la communauté scientifique de l'apprentissage automatique parmi les plus performantes, sont des méthodes de classification à large marge : le boosting et les machines à support vectoriel. Une méthode d'étiquetage de séquences, les champs conditionnels aléatoires, est également étudiée et utilisée. Deux cadres applicatifs sont abordés : -PlanResto, application touristique de dialogue oral homme-machine, permet aux utilisateurs de formuler en langage naturel une demande concernant un restaurant sur Paris. La compréhension effectuée en temps réel consiste en la construction d'une requête à une base de données. L'accord consensuel des différents classifieurs est utilisé en tant que mesure de confiance ; -SCOrange, corpus de sondage téléphonique, vise à collecter les messages des utilisateurs de mobile exprimant leur satisfaction vis à vis du service client. La compréhension effectuée off-line consiste à évaluer les proportions des différentes opinions exprimées selon un thème et une polarité. Les classifieurs permettent d'extraire les avis des utilisateurs dans une stratégie visant à évaluer de manière fiable les proportions des opinions ainsi que leur évolution
The work presented in this PhD thesis deals with the automatic Spoken Language Understanding (SLU) problem in multiple speaker applications which accept spontaneous speech. The study consists in integrating automatic classification methods in the speech decoding and understanding processes. My work consists in adapting methods, wich have already shown good performance in text domain, to the particularities of an Automatic Speech Recognition system outputs. The main difficulty of the process of this type of data is due to the uncertainty in the input parameters for the classifiers. Among all existing automatic classification methods, we choose to use three of them. The first is based on Semantic Classification Trees, the two others classification methods, considered among the most performant in the scientific community of machine learning, are large margin ones based on boosting and support vector machines. A sequence labelling method, Conditional Random Fields (CRF), is also studied and used. Two applicative frameworks are investigated : -PlanResto is a tourism application of human-computer dialogue. It enables users to ask information about a restaurant in Paris in natural language. The real-time speech understanding process consists in building a request for a database. Within this framework, the consensual agreement of the different classifiers, considered as semantic experts, is used as a confidence measure ; -SCOrange is a spoken telephone survey corpus. The purpose is to collect messages of mobile users expressing their opinion about the customer service. The off-line speech understanding process consists in evaluating proportions of opinions about a topic and a polarity. Classifiers enable the extraction of user's opinions in a strategy that can reliably evalute the distribution of opinions and their temporal evolution

APA, Harvard, Vancouver, ISO, and other styles

16

Chevelu, Jonathan. "Production de paraphrases pour les systèmes vocaux humain-machine." Phd thesis, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00603750.

Full text

Abstract:

Cette thèse s'intéresse au lien entre ce qui est prononcé et le système vocal humaine-machine qui le prononce. Plutôt que de proposer des systèmes capables de tout vocaliser, nous envisageons le message comme une variable qui peut être modifiée. L'élément primordial d'un message est son sens. Il est donc possible de changer les mots utilisés si cela conserve le sens du message et améliore les systèmes vocaux. Cette modification s'appelle " production de paraphrases ". Dans cette thèse, nous proposons une étude de la production statistique de paraphrases pour les systèmes vocaux humain-machine. Pour ce faire, nous présentons la conception d'un système de référence et d'une plateforme d'évaluation en ligne. Nous mettons en lumière les différentes limites de l'approche classique et nous proposons un autre modèle fondé sur l'application de règles de transformation. Nous montrons qu'il est nécessaire de prendre en compte l'utilisation souhaitée des paraphrases lors de leur production et de leurs évaluations, pas uniquement du critère de conservation du sens. Enfin, nous proposons et étudions un nouvel algorithme pour produire des paraphrases, fondé sur l'échantillonnage de Monte- Carlo et l'apprentissage par renforcement. Cet algorithme permet de s'affranchir des contraintes habituelles de l'algorithme de Viterbi et donc de proposer librement de nouveaux modèles pour la paraphrase.

APA, Harvard, Vancouver, ISO, and other styles

17

Pouteau, Xavier. "Dialogue de commande multimodal en milieu opérationnel : une communication naturelle pour l'utilisateur ?" Nancy 1, 1995. http://www.theses.fr/1995NAN10419.

Full text

Abstract:

La communication multimodale entre un opérateur et une machine est souvent abordée comme un élément de solution à la complexité croissante des systèmes commandés. Pour autant, la propriété "multimodale" d'un système ne lui confère pas nécessairement la qualité d'être "naturel", ni efficace ou acceptable. Le travail présenté consiste donc dans une première partie à caractériser la communication multimodale du point de vue de l'utilisateur, c'est à dire par les modes effectivement utilisés par celui-ci (la parole et le geste), en situant notamment les niveaux d'interaction envisageables entre parole et geste dans l'optique d'une mise en oeuvre, et en faisant la distinction entre une intégration de ces modes et une intégration de dispositifs les supportants. Sur cette base, une analyse de systèmes existants conduit à un point de vue synthétique, portant que le contenu fonctionnel d'un système de dialogue de commande multimodal. Dans une seconde partie, nous affinons tout d'abord l'analyse du contenu fonctionnel d'un système de dialogue multimodal, en tentant notamment de stabiliser les notions de tâche et de dialogue dans le cadre d'un système de commande professionnel. Dans ce cadre, l'interprétation d'énoncés de commande est abordée comme l'identification des réactions du système à un énoncé. En situant cette problématique dans l'optique d'une intégration de la parole et du geste, nous décrivons la mise en oeuvre des différents cas de figure envisageables de manière contradictoire avec d'autres approches. Cette étude détaillée conduit notamment à mettre en évidence les limites possibles d'une communication multimodale "naturelle", déclinée selon les logiques de faire et de faire faire identifiées dans la première partie, en montrant que ces limites relèvent de choix de conception du système de dialogue. Nous proposons également une première extension à l'intégration de la parole et du geste en dépassant la seule fonction déictique de celui-ci. Enfin, le dernier chapitre décrit l'ensemble des architectures matérielles et logicielle dans les différentes réalisations effectuées, où les contraintes de mise en oeuvre ainsi que les choix effectuées en regard des modèles retenus au chapitre précédent sont présentés. Nous tentons également de montrer les limites de ces choix, en proposant des développements ultérieurs possibles en regard des modèles retenus au chapitre précédent sont présentés. Nous tentons également de montrer les limites de ces choix, en proposant des développements ultérieurs possibles en regard de la disponibilité technologique acturelle ou envisageable à court/moyen terme dans le but de construire des systèmes de dialogue robustes offrant une réelle communication multimodale

APA, Harvard, Vancouver, ISO, and other styles

18

Barbier, Vincent. "Utilisation de connaissances sémantiques pour l’analyse de justifications de réponses à des questions." Paris 11, 2009. http://www.theses.fr/2009PA112127.

Full text

Abstract:

Ce mémoire se situe dans le domaine des systèmes de questions-réponses, ces systèmes qui, à partir d'une question en langage naturel posée par l'utilisateur recherche une réponse dans une collection de documents. Notre travail se fonde sur la notion de justification, que nous formalisons comme un graphe d'appariement entre les informations linguistiques extraites de la question et les éléments justificatifs correspondants de le passage réponse. Ce modèle fait intervenir trois types de phénomènes linguistiques : les variations paradigmatiques locales d'un terme (sémantiques, morphologiques, inférences), les liens syntagmatiques entre les constituants d'une phrase, et une composante de sémantique énonciative reliant des éléments distants (anaphores, coréférences, thématisation), dans un contexte multiphrase, aussi bien mono- que multi-documents. Dans ce travail, nous décrivons premièrement l'extraction semi-automatique d'un corpus de questions-réponses. Ce corpus regroupe des couples d'une question et d'un passage réponse, où sont annotées les structures de justification évoquées ci-avant. Nous mesurons sur ce corpus la conformation des justifications en termes de variation sémantique et d'étendue spatiale. Ensuite, nous décrivons et évaluons un programme extrayant et pondérant des justifications à partir de passages d'articles de journaux rapportés par une chaîne de traitements questions-réponses. Notre programme vise à conserver au système la capacité à produire une justification structurée, tout en rendant possible l'intégration d'une grande hétérogénéité de traitements linguistiques, de nature, de niveau de granularité et de fiabilité variés
This thesis belongs to the domain of question-answering systems. These systems receive a question in natural language from the user and search for the answer in a collection of documents. This work relies on the notion of justification, which is formalised as a mapping between the pieces of linguistic information of the question and the corresponding elements in the answer passage. That model takes into account three categories of linguistic phenomena : paradigmatic (local) variations of terms (semantical, morphological, inference), syntagmatic links between sentence constituents, and a component of enunciative semantics linking together the remote elements (by anaphora, coreference, thematisation), in a multi-sentence context, as well mono- or multi-documents. In this work, I first describe the semi-automatic extraction of a corpus of question-answer couples. That corpus brings together couples of a question and a answering passage where has been annotated the before-mentioned structure of the justification. On the corpus, we measure the justifications' conformation in terms of semantic variation and spatial extension. Then, I describe an evaluate a program for extracting and weighting the justifications located in the newspaper articles' passages brought by a question-answering processing chain. My program aims at preserving the system's ability to produce a structured justification, while making possible to integrate a large variety of heterogeneous linguistic processes of various nature, granularity level and reliability

APA, Harvard, Vancouver, ISO, and other styles

19

Husson, Jean-Luc. "Une approche hiérarchique de la segmentation du signal de parole." Nancy 1, 1998. http://www.theses.fr/1998NAN10292.

Full text

Abstract:

Dans cette thèse, nous reconsidérons le décodage acoustico-phonétique de parole sous un angle analytique. Pour ce faire, nous proposons un système de segmentation automatique du signal de parole continue et dans des conditions d'indépendance vis-à-vis du locuteur. Notre objectif consiste à transformer l'onde acoustique continue en une séquence discrète de segments temporels correspondant à des réalisations acoustiques de phonèmes. Le premier chapitre vise à présenter au lecteur non expert du domaine la problématique de la communication orale homme-machine et démontrer l'importance du niveau de traitement perceptif. Le second chapitre est dédié à l'étude de l'étape de segmentation et à la présentation de plusieurs systèmes de segmentation représentatifs de la diversité des approches possibles. Le chapitre III est dédié à la présentation de nos travaux concernant l'extraction coopérative de la fréquence fondamentale. Les bons résultats obtenus pour de la parole propre et bruitée nous permettent d'utiliser ce système pour présegmenter le signal en régions voisées et non-voisées. Le chapitre IV est consacré à la présentation de notre système hiérarchique. Nous proposons un algorithme permettant de retrouver dans les réseaux de segmentation multiniveaux (dendrogrammes) un ensemble réduit des solutions de segmentation phonétique les plus vraisemblables. Le coefficient de vraisemblance attribue à une segmentation candidate est calculée en fonction de critères de durée et d'homogénéité spectrale des segments acoustiques qui la composent. Nous montrons qu'une contrainte globale de durée (estimation sous la forme d'un intervalle de confiance du nombre de segments attendus compte tenu de la durée du signal) permet de réduire efficacement l'espace de recherche. Le chapitre V aborde le problème de l'évaluation des systèmes de segmentation en général et présente les résultats qualitatifs et quantitatifs obtenus par notre système sur des corpus du français.

APA, Harvard, Vancouver, ISO, and other styles

20

Servan, Christophe. "Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixte." Phd thesis, Université d'Avignon, 2008. http://tel.archives-ouvertes.fr/tel-00591997.

Full text

Abstract:

Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.

APA, Harvard, Vancouver, ISO, and other styles

21

Frath, Pierre. "Semantique, reference et acquisition automatique de connaissances a partir de textes." Strasbourg 2, 1997. http://www.theses.fr/1997STR20079.

Full text

Abstract:

L'acquisition automatique de connaissances a partir de textes consiste, idealement, a generer une representation structuree d'un corpus fourni en entree a un systeme informatique. Cette representation doit pouvoir etre interrogee par un humain ou par une machine. La conception et la realisation d'un tel systeme soulevent des difficultes considerables, tant sur le plan theorique que technique. Ce travail a pour but d'examiner ces deux aspects du probleme. Une premiere partie est consacree a une analyse de l'etat de l'art. Elle consiste en une vue structuree des deux grandes familles d'approches du probleme de l'acquisition de connaissances : l'extraction automatique de terminologie, et l'acquisition de connaissances par projection de modeles conceptuels. Une seconde partie etudie les fondement souvent implicites du traitement automatique des langues, c'est-a-dire le positivisme logique et la semantique lexicale componentielle. En guise d'alternative a la componentialite, nous proposons une semantique du signe, de l'usage et de la reference inspiree de charles sanders peirce, de ludwig wittgenstein et de georges kleiber. Dans la troisieme partie, il est procede a l'analyse semantique referentielle d'un corpus de textes medicaux. Nous y definissons deux types de reference : la denomination et la denotation. La premiere consiste en une reference arbitraire, preconstruite, et opaque; la seconde, en une reference discursive, construite, et transparente. Dans la quatrieme partie, nous construisons manuellement une representation detaillee d'un fragment du corpus afin d'examiner la pertinence pratique de l'analyse theorique, et de fixer des objectifs precis au systeme. Enfin, la cinquieme partie est consacree a la construction aussi automatisee que possible d'une base de connaissances terminologiques capable de representer un corpus de textes techniques ou scientifiques, et qui soit suffisamment structuree pour permettre des usages applicatifs par exemple en terminologie ou en modelisation de domaines. En somme, ce travail examine le probleme de l'acquisition automatique de connaissances en liant intimement la theorie et la pratique, la finalite technologique donnant une ligne directrice aux discussions theoriques
Automatic knowledge acquisition from text ideally consists in generating a structured representation of a corpus, which a human or a machine should be able to query. Designing and realising such a system raises a number of difficulties, both theoretical and practical, which we intend to look into. The first part of this dissertation studies the two main approaches to the problem : automatic terminology retrieval, and model driven knowledge acquisition. The second part studies the mostly implicit theoretical foundations of natural language processing i. E. Logical positivism and componential lexical semantics. We offer an alternative inspired from the work of charles sanders peirce, ludwig wittgenstein and georges kleiber, i. E. A semantics based on the notions of sign, usage and reference. The third part is devoted to a detailed semantic analysis of a medical corpus. Reference is studied through two notions, denomination and denotation. Denominations allow for arbitrary, preconstructed and opaque reference; denotations, for discursive, constructed and transparent reference. In the fourth part, we manually construct a detailed representation of a fragment of the corpus. The aim is to study the relevance of the theoretical analysis and to set precise objectives to the system. The fifth part focuses on implementation. It is devoted to the construction of a terminological knowledge base capable of representing a domain corpus, and sufficiently structured for use by applications in terminology or domain modelling for example. In a nutshell, this dissertation examines automatic knowledge acquisition from text from a theoretical and technical point of view, with the technology setting the guidelines for the theoretical discussions

APA, Harvard, Vancouver, ISO, and other styles

22

Milhorat, Pierrick. "Une plate-forme ouverte pour la conception et l'implémentation de systèmes de dialogue vocaux en langage naturel." Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0087/document.

Full text

Abstract:

L'interaction vocale avec des systèmes automatiques connaît, depuis quelques années, un accroissement dans l'intérêt que lui porte tant le grand public que la communauté de la recherche. Cette thèse s'inscrit dans ce cadre pour aborder le sujet depuis deux points de vue complémentaires. D'une part, celui apparent de la fiabilité, de l'efficacité et de l'utilisabilité de ces interfaces. D'autre part, les aspects de conception et d'implémentation sont étudiés pour apporter des outils de développement aux concepteurs plus ou moins initiés de tels systèmes. A partir des outils et des évolutions dans le domaine, une plate-forme modulaire de dialogue vocal a été agrégée. L'interaction continue, basée sur une "écoute" permanente du système pose des problèmes de segmentation, de débruitage, de capture de son, de sélection des segments adressés au système, etc... Une méthode simple, basée sur la comparaison des résultats de traitements parallèles a prouvé son efficacité, tout comme ses limites pour une interaction continue avec l'utilisateur. Les modules de compréhension du langage forment un sous-système interconnecté au sein de la plate-forme. Ils sont les adaptations d'algorithmes de l'état de l'art comme des idées originales. Le choix de la gestion du dialogue basé sur des modèles de tâches hiérarchiques, comme c'est la cas pour la plate-forme, est argumenté. Ce formalisme est basé sur une construction humaine et présente, de fait, des obstacles pour concevoir, implémenter, maintenir et faire évoluer les modèles. Pour parer à ceux-ci, un nouveau formalisme est proposé qui se transforme en hiérarchie de tâches grâce aux outils associés
Recently, global tech companies released so-called virtual intelligent personal assistants.This thesis has a bi-directional approach to the domain of spoken dialog systems. On the one hand, parts of the work emphasize on increasing the reliability and the intuitiveness of such interfaces. On the other hand, it also focuses on the design and development side, providing a platform made of independent specialized modules and tools to support the implementation and the test of prototypical spoken dialog systems technologies. The topics covered by this thesis are centered around an open-source framework for supporting the design and implementation of natural-language spoken dialog systems. Continuous listening, where users are not required to signal their intent prior to speak, has been and is still an active research area. Two methods are proposed here, analyzed and compared. According to the two directions taken in this work, the natural language understanding subsystem of the platform has been thought to be intuitive to use, allowing a natural language interaction. Finally, on the dialog management side, this thesis argue in favor of the deterministic modeling of dialogs. However, such an approach requires intense human labor, is prone to error and does not ease the maintenance, the update or the modification of the models. A new paradigm, the linked-form filling language, offers to facilitate the design and the maintenance tasks by shifting the modeling to an application specification formalism

APA, Harvard, Vancouver, ISO, and other styles

23

Bobillet, William. "Contribution à l'étude des modèles à erreurs dans les variables : application au traitement de la parole et à l'estimation de canaux de propagation." Bordeaux 1, 2007. http://www.theses.fr/2007BOR13391.

Full text

Abstract:

Dans ce mémoire, nous proposons de reformuler des problèmes classiques d'identification à l'aide de modèles à erreurs dans les variables (EIV). Dans le premier chapitre, nous présentons le schéma de Frisch, dans un cadre générique, sous sa forme dédiée à l'identification de modèles paramètriques en traitement du signal. Les principales propriétés utilisées dans le mémoire sont tout d'abord énoncées et démontrées. Ainsi, nous précisons l'ensemble des solutions théoriques du schéma de Frisch appliqué à une matrice définie positive R. Puis, nous présentons le schéma de Frisch pour l'identificaion de systèmes linéaires dynamiques. Nous montrons alors l'équivalence entre la résolution du schéma de Frisch dans le domaine fréquentiel et sa résolutjion lorsqu'il est appliqué à une suite de matrices définies positives, de taille croissante et convenablement choisies. Dans le deuxième chapitre, nous développons des techniques d'estimation de paramètres AR à partir d'observations bruitées. Pour cela, nous transformons le modèle AR+bruit en un modèle EIV équivalent. Nous nous intéressons ensuite à certaines caractéristiques spéctrales des solutions données par le schéma de Frisch et montrons qu'elles généralisent des approches classiques comme les équations de Yule-Walker compensées. Enfin, les méthodes proposées sont appliquées au rehaussement d'un signal de parole et à l'estimation de canaux de Rayleigh. Le troisième chapitre est consacré à l'identifcation de sytèmes SIMO modélisés par des filtres à réponse impulsionnelle finie. Nous présentons la résolution théorique du schéma de Frisch correspondant et proposons des critères nécessaires à sa résolution dans les cas réels. . . . . .

APA, Harvard, Vancouver, ISO, and other styles

24

Wu, Zong Liang. "Peut-on entendre des événements articulatoires ? : traitement temporel de la parole dans un modèle du système auditif." Grenoble INPG, 1990. http://www.theses.fr/1990INPG0093.

Full text

Abstract:

Dans le cadre de l'etude des mecanismes de perception de la parole, nous cherchons a nous situer par rapport a la theorie motrice de liberman & mattingly selon laquelle il y a identification entre les gestes articulatoires et les objets distals perceptifs. Notre programme se trouve dans la ligne proposee par d. Marr: quels calculs neurophysiologiques, quelles representations auditives peuvent conduire a la recuperation des gestes articulatoires? nos efforts sont concentres ici sur la representation d'un groupe d'evenements acoustiques interpretables articulatoirement et se presentant dans le signal acoustique sous forme d'irregularites spectro-temporelles, au niveau des reponses du nerf auditif et au niveau d'un reseau des neurones on dans le noyau cochleaire. Nous avons d'abord developpe un modele du systeme auditif peripherique incorporant en particulier un module pouvant simuler les proprietes les plus importantes de l'adaptation nerveuse qui est un mecanisme determinant pour le traitement des proprietes dynamiques et temporelles de la parole. Nous avons ensuite propose deux modeles pour deux types de neurones on localises dans le noyau cochleaire, ainsi que plusieurs canaux specialises, pour traiter davantage la forme spatio-temporelle d'activite du nerf auditif. Nous avons pu montrer qu'il y a une bonne adequation entre processus de traitements spatio-temporels dans le systeme auditif et detection de ces evenements

APA, Harvard, Vancouver, ISO, and other styles

25

Fohr, Dominique. "Aphodex : Un système expert en décodage acoustico-phonétique de la parole continue." Nancy 1, 1986. http://docnum.univ-lorraine.fr/public/SCD_T_1986_0416_FOHR.pdf.

Full text

Abstract:

Analyse et modélisation du savoir faire d'un expert en lecture de spectrogrammes, la compétence mise en jeu à ce niveau étant plus accessible a l'analyse car plus consciente. Après une première phase d'acquisition de l'expertise (règles et stratégies), une formalisation est proposée sous la forme d'un système expert à règles de production. Pour reproduire l'expertise, notre système est capable de : remettre en cause la segmentation à tout moment, dérouler en parallèle une analyse sur plusieurs segmentations possibles, prendre en compte les phénomènes contextuels, tenir compte de l'incertitude en ce qui concerne l'interprétation des mesures (détection d'indices), déterminer des seuils relatifs qui correspondents le mieux possible à la démarche experte. Les caractéristiques du système sont les suivantes : le moteur fonctionne en chaînage avant et en chaînage arrière ; le système est facilement incrémentable, avec interface conversationnelle pour entrer les règles ; les règles du système sont compréhensibles et modifiables facilement par l'expert ; le système fournit une trace de son raisonnement. Pour résoudre ces différents problèmes, nous avons développé notre propre moteur d'inférence, (sa principale caractéristique étant de pouvoir suivre plusieurs lignes de raisonnement en parallèle) et un certain nombre d'outils tels que : spectrogrammes numériques, algorithmes de traitement du signal, acquisition et segmentation d'un corpus, procédures de segmentation

APA, Harvard, Vancouver, ISO, and other styles

26

Grisvard, Olivier. "Modélisation et gestion du dialogue oral homme-machine de commande." Nancy 1, 2000. http://www.theses.fr/2000NAN10011.

Full text

Abstract:

La conception et la réalisation d'un système de dialogue oral homme-machine de commande accessible au plus grand nombre, c'est-à-dire à des utilisateurs non spécialistes du dialogue avec une machine, nécessite la prise en compte de certaines caractéristiques de la conversation humaine en général, pour permettre une interaction langagière la plus naturelle possible entre le système et l'utilisateur, et le respect de contraintes propres au dialogue finalisé, c'est-à-dire dédié à la gestion d'une tâche informatique précise. Dans ce contexte, nous proposons un modèle pour ce type de dialogue, destiné in fine à être implanté dans un système de commande opérationnel, mais dont la définition repose sur une étude approfondie des principes et mécanismes du dialogue homme-homme. Plus précisément, notre modélisation du dialogue se compose d'un formalisme de représentation structurée des données du dialogue et de la tâche, fondé sur la notion d'éventualité, et d'une procédure de gestion du dialogue qui comprend l'analyse pragmatique des énoncés de l'utilisateur, la gestion effective de la représentation événementielle du dialogue, la gestion de l'application sous-jacente, et la production des énoncés du système. Notre modèle se veut générique vis-à-vis de l'application à piloter
To design a spoken man-machine command dialogue system to be used by the largest number of people, that is even people who are not specialists of interacting with computers, is not an easy task. On the one hand, it requires to take into account sorne characteristics of human conversation in general, in order to provide the system with natural means of interacting with the user. On the other hand, it implies to respect constraints specifie to task-based dialogue, that is dialogue used to manage a definite computer task. Given such a framework, we propose a model for this class of dialogues. Although the model's main purpose is to be implemented in a real command system, its definition is based on an in-depth study of princip les and mecanisms of man-man dialogue. More precisely, our dialogue model comprises a structured representation formalism for task and dialogue data, which is based on the notion of eventuality, as well as a dialogue management procedure. This procedure includes pragmatic analysis of user utterances, effective management of the event-based dialogue representation, application management, and system utterance production. The model we propose is intended to be generic enough in order to be independent of the application

APA, Harvard, Vancouver, ISO, and other styles

27

Le, Maguer Sébastien. "Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00934060.

Full text

Abstract:

Les travaux présentés dans cette thèse se situent dans le cadre de la synthèse de la parole à partir du texte et, plus précisément, dans le cadre de la synthèse paramétrique utilisant des règles statistiques. Nous nous intéressons à l'influence des descripteurs linguistiques utilisés pour caractériser un signal de parole sur la modélisation effectuée dans le système de synthèse statistique HTS. Pour cela, deux méthodologies d'évaluation objective sont présentées. La première repose sur une modélisation de l'espace acoustique, généré par HTS par des mélanges gaussiens (GMM). En utilisant ensuite un ensemble de signaux de parole de référence, il est possible de comparer les GMM entre eux et ainsi les espaces acoustiques générés par les différentes configurations de HTS. La seconde méthodologie proposée repose sur le calcul de distances entre trames acoustiques appariées pour pouvoir évaluer la modélisation effectuée par HTS de manière plus locale. Cette seconde méthodologie permet de compléter les diverses analyses en contrôlant notamment les ensembles de données générées et évaluées. Les résultats obtenus selon ces deux méthodologies, et confirmés par des évaluations subjectives, indiquent que l'utilisation d'un ensemble complexe de descripteurs linguistiques n'aboutit pas nécessairement à une meilleure modélisation et peut s'avérer contre-productif sur la qualité du signal de synthèse produit.

APA, Harvard, Vancouver, ISO, and other styles

28

Béchet, Frédéric. "Système de traitement de connaissances phonétiques et lexicales : application à la reconnaissance de mots isolés sur de grands vocabulaires et à la recherche de mots cibles dans un discours continu." Avignon, 1994. http://www.theses.fr/1994AVIG0106.

Full text

Abstract:

Les travaux presentes se situent dans le cadre general de la reconnaissance automatique de la parole (rap). Nous proposons une alternative aux systemes utilisant une representation statistique de l'information qui necessitent une longue phase d'apprentissage. A cet effet nous avons developpe un ensemble de modules generaux utilisant des methodes de reconnaissance analytique fondees sur la representation explicite de connaissances phonetiques et lexicales. Les limites de notre etude sont la reconnaissance phonetique et l'acces lexical. Afin d'illustrer les possibilites des modules presentes nous avons realise deux applications ayant servies au developpement ainsi qu'a l'evaluation des techniques utilisees. La premiere de ces applications, appelees spex, concerne la reconnaissance de mots isoles sur de grands vocabulaires ; la deuxieme s'attache au traitement de la parole continue par la realisation d'un module de reconnaissance de mots cles dans un discours (word spotting). Compte tenu des specifications fixees (apprentissage tres reduit pour chaque nouveau locuteur, simplicite des methodes employees), nos travaux ont montre que des techniques basees sur le traitement explicite d'informations permettent la realisation de systemes performants dans un vaste champ d'applications, que ce soit pour le traitement des mots isoles ou pour celui de la parole continue

APA, Harvard, Vancouver, ISO, and other styles

29

Ben, Jannet Mohamed Amer. "Évaluation adaptative des systèmes de transcription en contexte applicatif." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS041/document.

Full text

Abstract:

Il est important d'évaluer régulièrement les produits de l'innovation technologique afin d'estimer le niveau de maturité atteint par les technologies et d'étudier les cadres applicatifs dans lesquels elles pourront être exploitées. Le traitement automatique des langues (TAL) relève à la fois de la recherche et de l'innovation technologique et a pour but la modélisation et le développement d'outils permettant de traiter automatiquement le langage naturel. Pendant longtemps, les différentes briques technologiques issues du TAL étaient développées séparément. Par conséquent, les méthodes d'évaluation existantes sont dans la plupart modulaires et ne permettent d'évaluer qu'un seul module à la fois, alors qu'aujourd'hui nombreuses applications nécessitent de combiner plusieurs modules de TAL pour résoudre des tâches complexes. Le nouveau défi en terme d'évaluation est alors de pouvoir évaluer les différents modules (ou briques) tout en prenant en compte le contexte applicatif.Notre travail porte sur l'évaluation des systèmes de reconnaissance automatique de la parole (RAP) en contexte applicatif, en particulier, celui de la reconnaissance d'entités nommées (REN).En première partie, nous abordons la problématique de l'évaluation des systèmes de RAP en contexte applicatif à travers une étude de l'état de l'art. Nous y décrivons les tâche de RAP et de REN proposées dans les campagnes d'évaluation ainsi que les protocoles mis en place pour leurs évaluation. Nous y discutons également les limites des approches d'évaluations modulaires et nous y exposons les mesures alternatives proposées dans la littératures. En deuxième partie, nous décrivons la tâche de détection, classification et décomposition d'entités nommées étudiée et nous proposons une nouvelle métriques ETER (Entity Tree Error Rate) permettant de prendre en compte les spécificité de cette tâche et le contexte applicatif lors de l'évaluation. ETER permet également de supprimer les biais observés avec les métriques existantes. En troisième partie, nous définissons une nouvelle mesure ATENE (Automatic Transcriptions Evaluation for Named Entities) qui permet d'évaluer la qualité des systèmes de RAP et l'impact de leurs erreurs pour des systèmes de REN appliqués en aval. ATENE consiste à comparer les probabilités de présence d'entités sur les transcriptions de référence et d'hypothèse plutôt qu'une comparaison directe des graphèmes. Elle est composée de deux mesures élémentaires. Une première permettant l'évaluation de risque d'erreur d'omission et de substitution d'entités et une seconde permettant d'évaluer le risque d'erreur d'insertion d'entités causé par les erreurs de RAP.Nos expériences de validation montrent que les mesures données par ATENE corrèlent mieux que les autres mesures de l'état de l'art avec les performances des systèmes de REN
It is important to regularly assess the technological innovation products in order to estimate the level of maturity reached by the technology and study the applications frameworks in which they can be used. Natural language processing (NLP) aims at developing modules and applications that automatically process the human language. That makes the field relevant to beth research and technological innovation. For years, the different technological modules from the NLP were developed separately. Therefore, the existing evaluation methods are in most modular. They allow to evaluate only one module at a time, while today, many applications need to combine several NLP modules to solve complex tasks. The new challenge in terms of evaluation is then to evaluate the different modules while taking into account the applicative context.Our work addresses the evaluation of Automatic Speech Recognition (ASR) systems according to the applicative context. We will focus on the case of Named Entities Recognition (NER) from spoken documents transcriped automatically. In the first part, we address the issue of evaluating ASR systems according to the application context through a study of the state of the art. We describes the tasks of ASR and NER proposed during several evalution campaigns and we discuss the protocols established for their evaluation. We also point the limitations of modular evaluation approaches and we expose the alternatives measures proposed in the literature. In the second part we describe the studied task of named entities detection, classification and decomposition and we propose a new metric ETER (Entity Tree Error Rate) which allows to take into account the specificity of the task and the applicative context during the evaluation. ETER also eliminates the biases observed with the existing metrics. In the third part, we define a new measure ATENE (Automatic Transcriptions Evaluation for Named Entities) that evaluates the quality of ASR systems and the impact of their errors for REN systems applied downstream. Rather than directly comparing reference and hypothesis transcriptions, ATENE measure how harder it becames to identify entities given the differences between hypothesis and reference by comparing an estimated likelihood of presence of entities. It is composed of two elementary measurements. The first aims to assess the risk of entities deletions and substitutions and the second aims to assess the risk of entities insertions caused by ASR errors.Our validation experiments show that the measurements given by ATENE correlate better than other measures from the state of the art with the performance of REN systems

APA, Harvard, Vancouver, ISO, and other styles

30

Mignot, Christophe. "Usage de la parole et du geste dans les interfaces multimodales : étude expérimentale et modélisation." Nancy 1, 1995. http://www.theses.fr/1995NAN10229.

Full text

Abstract:

La conception des interfaces homme-machine multimodales vise à tirer un meilleur profit des moyens d'action et d'expression de l'utilisateur que sont la parole et le geste. Dans cette thèse, nous présentons, dans une première partie, une réflexion théorique sur les différentes capacités de chaque mode, manipuler et communiquer, et sur la manière de concevoir des systèmes informatiques capables d'en tirer profit. La seconde partie est une étude expérimentale, de type magicien d'oz, de l'usage par des utilisateurs novices d'une interface multimodale. L’objectif est de décrire et d'expliquer, pour l'informaticien concepteur d'interfaces multimodales, les facteurs qui déterminent l'usage de la parole et du geste dans une interaction homme-machine

APA, Harvard, Vancouver, ISO, and other styles

31

Gong, Yifan. "Contribution à l'interprétation automatique des signaux en présence d'incertitude." Nancy 1, 1988. http://www.theses.fr/1988NAN10035.

Full text

Abstract:

Quatre aspects essentiels de l'interprétation sont abordés : l'édition et modélisation du signal ; la conversion du signal en symboles ; l'analyse de la structure du signal et l'architecture du système d'interprétation

APA, Harvard, Vancouver, ISO, and other styles

32

Tichon, Jacques. "Conception et réalisation d'un système de communication pour handicapés, utilisant des techniques d'accès à un dictionnaire." Lille 1, 1985. http://www.theses.fr/1985LIL10078.

Full text

Abstract:

Établissement de la communication à partir d'éléments informatifs de base (catégorie syntaxique et bigrammes tête de mot) permettant un accès à un dictionnaire par l'intermédiaire d'un mini ordinateur.

APA, Harvard, Vancouver, ISO, and other styles

33

Séjourné, Kévin. "Questions réponses et interactions." Phd thesis, Université Paris Sud - Paris XI, 2009. http://tel.archives-ouvertes.fr/tel-00618412.

Full text

Abstract:

Les systèmes de question- réponse monolingues ou multilingues permettent de chercher dans une grande collection de documents (de type journalistique par exemple), ou sur le Web une réponse précise à une question. Cependant, il n'y a pas d'interaction possible après la réponse : on ne peut pas demander une précision, modifier sa question. Or souvent la réponse ne peut pas être apportée directement (question trop imprécise), ou n'est pas pleinement satisfaisante pour l'utilisateur. Le sujet de la thèse proposée consiste à étendre ces travaux de manière à permettre à un utilisateur d'engager un vrai dialogue, qui ne se réduise pas à une question/une réponse, en se fondant sur le travaux menés dans le cadre du dialogue homme-machine. Le contexte de cette thèse se situe dans le prolongement des travaux menés dans le groupe LIR du LIMSI. En effet, nous travaillons depuis plusieurs années sur les systèmes de Question-Réponse, et nous avons participé à plusieurs campagnes d'évaluation, tant sur le monolingue anglais (campagne TREC-QA : http: / / t rec.nist.gov/), que sur le monolingue français (campagne EqueR-EVALDA : http: / /www.elda.org/article118.html) ou sur le multi-lingue (campagne CLEF-QA : http: / / clef- qa.itc.it /). Ces campagnes présentent l'intérêt de permettre une évaluation de nos travaux par rapport à la communauté nationale et internationale. Elles nous ont également permis d'en mesurer les limites et de définir des champs de recherche très ouverts, que ce soit au niveau de notre groupe ou des perspectives envisagées dans le cadre même de ces campagnes d'évaluation. Par ailleurs, nous avons longtemps travaillé sur les systèmes de dialogue homme-machine, plus ou moins finalisés. Le cadre des systèmes ouverts (sans tâche définie a priori) que constitue la recherche dans des grandes collections de documents ou sur le web nous permet de reprendre et d'étendre ces travaux. Le but de cette thèse est donc d'ouvrir les systèmes de question/ réponse à un dialogue au cours duquel n'importe quel sujet peut être abordé. Le point de départ est une adaptation des travaux menés en dialogue Homme-Machine dans des domaines restreints à un système de Questions-Réponses. Ces recherches ont pour finalité d'apporter des perspectives nouvelles au moteur de recherche d'information classique, à la fois en terme de précision de l'information trouvée, de volume d'information traitées et de gain de temps pour accéder à cette information.

APA, Harvard, Vancouver, ISO, and other styles

34

Cabana, Antoine. "Contribution à l'évaluation opérationnelle des systèmes biométriques multimodaux." Thesis, Normandie, 2018. http://www.theses.fr/2018NORMC249/document.

Full text

Abstract:

Le développement et la multiplication de dispositifs connectés, en particulier avec les \textit{smartphones}, nécessitent la mise en place de moyens d'authentification. Dans un soucis d'ergonomie, les industriels intègrent massivement des systèmes biométrique afin de garantir l'identité du porteur, et ce afin d'autoriser l'accès à certaines applications et fonctionnalités sensibles (paiements, e-banking, accès à des données personnelles : correspondance électronique..). Dans un soucis de garantir, une adéquation entre ces systèmes d'authentification et leur usages, la mise en œuvre d'un processus d'évaluation est nécessaire.L'amélioration des performances biométriques est un enjeux important afin de permettre l'intégration de telles solutions d'authentification dans certains environnement ayant d'importantes exigences sur les performances, particulièrement sécuritaires. Afin d'améliorer les performances et la fiabilité des authentifications, différentes sources biométriques sont susceptibles d'être utilisées dans un processus de fusion. La biométrie multimodale réalise, en particulier, la fusion des informations extraites de différentes modalités biométriques
Development and spread of connected devices, in particular smartphones, requires the implementation of authentication methods. In an ergonomic concern, manufacturers integrates biometric systems in order to deal with logical control access issues. These biometric systems grant access to critical data and application (payment, e-banking, privcy concerns : emails...). Thus, evaluation processes allows to estimate the systems' suitabilty with these uses. In order to improve recognition performances, manufacturer are susceptible to perform multimodal fusion.In this thesis, the evaluation of operationnal biometric systems has been studied, and an implementation is presented. A second contribution studies the quality estimation of speech samples, in order to predict recognition performances

APA, Harvard, Vancouver, ISO, and other styles

35

Maurel, Fabrice. "Transmodalité et multimodalité écrit/oral : modélisation, traitement automatique et évaluation de stratégies de présentation des structures "visuo-architecturale" des textes." Toulouse 3, 2004. http://www.theses.fr/2004TOU30256.

Full text

Abstract:

Nous nous intéressons à l’utilité et l’utilisabilité de la structure visuelle des textes, pour leur transposition à l’oral par des systèmes de synthèse de parole (TTS). Nous proposons la synoptique d’un système qui conduit à une représentation du texte interprétable par un TTS. Nous avons partiellement réalisé le module spécifique aux stratégies d’oralisation, afin de rendre articulables la part signifiante des textes, souvent oubliée. Des spécifications ont été précisées et partiellement intégrées par un partenaire industriel. Des hypothèses prédictives quant à l’impact sur la mémorisation/compréhension de deux stratégies issues de notre Modèle d’Oralisation par Reformulation des Textes Écrits pour être Lus Silencieusement, ont été formulées et testées. Ce travail a montré que des fonctions cognitives étaient perdues. Des prototypes, exploitant la notion d’Image De Page, ont été imaginés à travers des interfaces dans lesquelles la multimodalité a pour rôle de combler cette lacune
We are interested in the utility and, if the need arises, the usability of texts visual structure, within the framework of their oral transposition. We propose the synoptic of an oralisation system who leads to a text representation directly interpretable by Text-To-Speech systems. We partially realized the module specific to the oralisation strategies, in order to render some signifying parts of the text often “forgotten” by synthesis systems. The first results of this study led to specifications in the course of integration by an industrial partner. Predictive hypothesis, related to the impact on memorizing/understanding of two strategies coming from our Reformulation-based Oralisation Model for Texts Written to be Silently Read (MORTELS), have been formulated and tested. This work shows that cognitive functions was lost. Prototypes, exploiting the “Page Reflection” notion, have been conceived through interfaces in which multimodality is used to fill this gaps

APA, Harvard, Vancouver, ISO, and other styles

36

Meurs, Marie-Jean. "Approche stochastique bayésienne de la composition sémantique pour les modules de compréhension automatique de la parole dans les systèmes de dialogue homme-machine." Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00634269.

Full text

Abstract:

Les systèmes de dialogue homme-machine ont pour objectif de permettre un échange oral efficace et convivial entre un utilisateur humain et un ordinateur. Leurs domaines d'applications sont variés, depuis la gestion d'échanges commerciaux jusqu'au tutorat ou l'aide à la personne. Cependant, les capacités de communication de ces systèmes sont actuellement limités par leur aptitude à comprendre la parole spontanée. Nos travaux s'intéressent au module de compréhension de la parole et présentent une proposition entièrement basée sur des approches stochastiques, permettant l'élaboration d'une hypothèse sémantique complète. Notre démarche s'appuie sur une représentation hiérarchisée du sens d'une phrase à base de frames sémantiques. La première partie du travail a consisté en l'élaboration d'une base de connaissances sémantiques adaptée au domaine du corpus d'expérimentation MEDIA (information touristique et réservation d'hôtel). Nous avons eu recours au formalisme FrameNet pour assurer une généricité maximale à notre représentation sémantique. Le développement d'un système à base de règles et d'inférences logiques nous a ensuite permis d'annoter automatiquement le corpus. La seconde partie concerne l'étude du module de composition sémantique lui-même. En nous appuyant sur une première étape d'interprétation littérale produisant des unités conceptuelles de base (non reliées), nous proposons de générer des fragments sémantiques (sous-arbres) à l'aide de réseaux bayésiens dynamiques. Les fragments sémantiques générés fournissent une représentation sémantique partielle du message de l'utilisateur. Pour parvenir à la représentation sémantique globale complète, nous proposons et évaluons un algorithme de composition d'arbres décliné selon deux variantes. La première est basée sur une heuristique visant à construire un arbre de taille et de poids minimum. La seconde s'appuie sur une méthode de classification à base de séparateurs à vaste marge pour décider des opérations de composition à réaliser. Le module de compréhension construit au cours de ce travail peut être adapté au traitement de tout type de dialogue. Il repose sur une représentation sémantique riche et les modèles utilisés permettent de fournir des listes d'hypothèses sémantiques scorées. Les résultats obtenus sur les données expérimentales confirment la robustesse de l'approche proposée aux données incertaines et son aptitude à produire une représentation sémantique consistante

APA, Harvard, Vancouver, ISO, and other styles

37

Morris, Andrew Cameron. "Analyse informationnelle du traitement de la parole dans le système auditif périphérique et le noyau cochléaire : application à la reconnaissance des occlusives voisées du français." Grenoble INPG, 1992. http://www.theses.fr/1992INPG0140.

Full text

Abstract:

L'apport de cette etude est d'appliquer les outils classiques issus de la theorie de reconnaissance des formes et de la theorie de la communication pour examiner le role du noyau cochleaire en reconnaissance de la parole. Nous commencons par une discussion du probleme de la reconnaissance de la parole et une courte introduction a la physiologie du systeme auditif peripherique et du noyau cochleaire. Ceci est suivi d'un apercu des aspects appropries des theories de reconnaissance des formes, du traitement de l'information et de la theorie des reseaux neuronaux, reunissant d'importants resultats derives de l'analyse des moindres carres lineaire et non lineaire. Ensuite nous emettrons l'hypothese que les reponses onset et offset dans le noyau cochleaire pourraient etre utilisees pour localiser les concentrations d'informations sur les plosives afin de focaliser la reconnaissance subsequente des plosives sur des intervalles courts dans le signal original du nerf auditif. Pour tester cette hypothese nous developpons une technique basee sur la mesure de shannon de l'information mutuelle pour obtenir la distribution, par rapport aux positions onset et offset, d'informations dans le spectrogramme auditif pour la reconnaissance des plosives dans le contexte voyelle-plosive-voyelle. Nous trouvons que les deux positions sont fortement correlees avec les pics d'information pour les plosives, bien qu'une partie significative de cette information resulte d'une dynamique spectro-temporelle largement distribuee

APA, Harvard, Vancouver, ISO, and other styles

38

Mangeol, Bernard. "La composante lexicale dans les systèmes de dialogue oral homme-machine du CRIN." Nancy 1, 1988. http://www.theses.fr/1988NAN10178.

Full text

Abstract:

La composante lexicale des trois systèmes développés au CRIN est mise en oeuvre. Ces trois systèmes sont : 1) le système diapason, qui permet d'interpréter des commandes orales à un système sonar ; 2) le système partner, paramètré à la fois par la langue de travail et l'application désirée ; 3) le système dialog, dont le but est de mettre en place un système de renseignements administratifs, destiné au grand public

APA, Harvard, Vancouver, ISO, and other styles

39

Hueber, Thomas. "Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://pastel.archives-ouvertes.fr/pastel-00005707.

Full text

Abstract:

L'objectif poursuivi dans ce travail de thèse est la réalisation d'un dispositif capable d'interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la " communication parlée silencieuse ". Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d'une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d'autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d'imagerie pour capturer l'activité de l'appareil vocal pendant " l'articulation silencieuse " : l'imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d'un signal de parole " acoustique ", uniquement à partir d'un flux de données " visuelles " (images ultrasonores et vidéo). Cette conversion qualifiée ici de " visuo-acoustique ", s'effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l'acquisition des données audiovisuelles, leur caractérisation, l'inférence d'une cible acoustique à partir de l'observation du geste articulatoire et la synthèse du signal. Dans le cadre de la réalisation du dispositif expérimental d'acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l'utilisation combinée de deux capteurs inertiaux a tout d'abord été conçu. Un système permettant l'enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l'utilisation de la transformée en cosinus discrète, la seconde, sur l'analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l'inférence des paramètres acoustiques, qualifiée de " directe ", est basée sur la construction d'une " fonction de conversion " à l'aide d'un réseau de neurones et d'un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois " d'indirecte ", une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l'introduction de connaissances linguistiques a priori sur la séquence observée. Elle s'appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d'unités ; la seconde utilise la technique dite de " synthèse par MMC ". Pour permettre notamment la réalisation d'adaptations prosodiques, ces deux méthodes de synthèse s'appuient sur une description paramétrique du signal de parole du type "Harmonique plus Bruit" (HNM).

APA, Harvard, Vancouver, ISO, and other styles

40

Nguyen, Roselyne. "Un système multi-agent pour la machine à dicter vocale MAUD : conception et intégration d'une source de connaissances phonologiques." Nancy 1, 1996. http://www.theses.fr/1996NAN10321.

Full text

Abstract:

MAUD est un prototype de machine à dicter vocale élaboré au CRIN par l'équipe RFIA. Ce système est destiné à la reconnaissance automatique de la parole continue, multilocuteur, pour un très grand vocabulaire. Pour être un système opérationnel, MAUD doit tenter de faire collaborer toutes les connaissances linguistiques susceptibles d'améliorer la reconnaissance. Notre travail s'inscrit dans cette optique avec un double objectif : - faire évoluer l'architecture de MAUD afin de faciliter la modification des connaissances existantes – ou l'intégration de nouvelles connaissances, - profiter de cette nouvelle architecture pour étudier l'apport de la phonologie à la reconnaissance automatique de la parole. La réalisation de ce double objectif met en oeuvre trois domaines d'application distincts que sont la reconnaissance automatique de la parole, les systèmes multi-agents et la phonologie. Ces trois domaines sont présentés successivement dans la première partie de ce document. La partie suivante est consacrée à l’évolution de l'architecture procédurale de MAUD selon une approche multi agent. Après l'introduction de la version initiale de MAUD et du générateur ATOME qui a été choisi pour restructurer MAUD, nous proposons une nouvelle architecture fondée sur le modèle du tableau noir. Cette architecture multi-agent sert de base aux travaux concernant la phonologie. Le modèle phonologique que nous avons retenu et qui formalise (de manière informatique) les connaissances phonologiques sous la forme de règles en termes de gpm et de gpc, nous a permis de mettre en oeuvre deux réalisations concrètes. Ces travaux ont été menés dans le but d'étudier l'apport de la phonologie à la recherche des mots candidats au niveau lexical de MAUD. La première réalisation consiste à utiliser la partie contextuelle des règles phonologiques pour réduire le nombre trop important de mots candidats proposés par le module lexical. Les règles phonologiques agissent ici en tant que filtre lexico-phonologique. La seconde réalisation s'appuie plus largement sur le modèle phonologique et fait intervenir les règles dans la détermination des frontières de mot, l'un des problèmes majeurs de la reconnaissance de la parole continue. C'est dans cet esprit que le module lexico-phonologique PHONOLEX a été développé. L'ensemble de ces travaux présente les atouts d'une architecture multi-agent pour le système MAUD. De plus, les différentes expérimentations ont montré que les connaissances phonologiques actuelles sont capables de contribuer efficacement au processus global de reconnaissance à condition de les utiliser en complément d'autres connaissances susceptibles de réduire l'arbre de propositions lexicales généré.

APA, Harvard, Vancouver, ISO, and other styles

41

Abdallah, Nassib. "Interprétation des signaux cérébraux pour l’autonomie des handicapés : Système de reconnaissance de mots imaginés." Thesis, Angers, 2018. http://www.theses.fr/2018ANGE0038.

Full text

Abstract:

Les interfaces Cerveau Machine représentent une solution pour rétablir plusieurs fonctions comme le mouvement, la parole, etc. La construction de BCI se compose de quatre phases principales: "Collecte des données", "Prétraitement du signal", "Extraction et sélection de caractéristiques", "Classification". Dans ce rapport nous présentons un nouveau système de reconnaissance de mots imaginées basé sur une technique d’acquisition non invasive (EEG) et portable pour faciliter aux personnes ayant des handicaps spécifiques, leurs communications avec le monde extérieur. Cette thèse inclut un système nommé FEASR pour la construction d’une base de données pertinente et optimisée. Cette base a été testée avec plusieurs méthodes de classification pour obtenir un taux maximal de reconnaissance de 83.4% pour cinq mots imaginés en arabe. De plus, on discute de l’impact des algorithmes d’optimisations (Sélection des capteurs de Wernicke, Analyse en composante principale et sélection de sous bandes résultant de la décomposition en ondelette) sur les pourcentages de reconnaissance en fonction de la taille de notre base de données et de sa réduction
The Brain Machine interfaces represent a solution to restore several human issues such as movement, speech, etc. The construction of BCI consists of four main phases: "Data Recording", "Signal preprocessing", "Extraction and Selection of Characteristics", and "Classification". In this report we present a new imagery recognition system based on a non-invasive (EEG) and portable acquisition technique to facilitate communication with the outside world for people with specific disabilities.This thesis includes a system called FEASR for the construction of a relevant and optimized database. This database has been tested with several classification methods to obtain a maximum recognition rate of 83.4% for five words imagined in Arabic. In addition, we discuss the impact of optimization algorithms (Wernicke sensor selection, principal component analysis algorithm and the selection of subbands resulting from the discrete wavelet transform decomposition) on recognition percentages according to the size of our database and its reduction

APA, Harvard, Vancouver, ISO, and other styles

42

Lepauloux, Ludovick. "Prise de son distante par système multimicrophone. Application à la communication parlée en environnement bruyant." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00636256.

Full text

Abstract:

Dans notre société de plus en plus mobile, nous constatons que les systèmes de communication mains libres sont devenus une norme, que ce soit pour les interactions homme-machine ou homme-homme. Cependant, il est diﬃcile de garantir la qualité du signal de parole lors d'une prise de son distante car les microphones captent en plus du signal désiré le bruit de fond, la réverbération, le signal d'écho et les autres sources de parole concurrentes. Les antennes acoustiques associées aux techniques de formation de voies sont une solution eﬃcace et aujourd'hui technologiquement réalisable. Grâce à leur directivité, elles améliorent le rapport signal sur bruit de même que, en exploitant la corrélation spatiale du champ sonore, elles permettent de réduire la réverbération, l'écho et le bruit. Les antennes acoustiques jouent un rôle croissant dans la téléphonie mains libres, la reconnaissance de locuteur, les systèmes à commande vocale, l'aide aux malentendants ou la surveillance audio. Dans cette thèse, pour s'adapter aux environnements variants dans le temps, aux non-stationnarités des signaux et aux éventuels mouvements du locuteur, nous considérons les antennes adaptatives de type GSC (Generalized Sidelobe Canceller) pour leur implémentation avantageuse. Cependant, l'un des défauts majeurs de cette antenne, couramment utilisée, réside dans la fuite du signal utile dans l'étage d'estimation du bruit provoquant de fortes dégradations voire l'auto-annulation de ce signal en sortie. Pour résoudre ce problème, nous proposons de mettre à proﬁt la structure récursive spéciﬁquement dédiée à la gestion de la diaphonie dans la technique d'annulation adaptative de bruit bicapteur, nommée CTRANC (Crosstalk-Resistant Adaptive Noise Canceller). Ainsi, avant de proposer une extension de cette méthode au cas du GSC et donc de déﬁnir une nouvelle architecture récursive pour celui-ci, nous donnons dans un premier temps une analyse complète du CTRANC et proposons de nouveaux algorithmes adaptatifs dans le domaine fréquentiel. Par ailleurs, notre étude fournit également de nouveaux résultats sur les propriétés de convergence et l'existence d'un point d'équilibre pour le CTRANC. Enﬁn, des résultats expérimentaux confortent l'analyse et montrent l'eﬃcacité des solutions proposées pour la suppression du signal de fuite et l'amélioration des performances.

APA, Harvard, Vancouver, ISO, and other styles

43

Le, Bigot Ludovic. "La recherche d'informations avec un système de dialogue en langage naturel." Poitiers, 2004. http://www.theses.fr/2004POIT5020.

Full text

Abstract:

Cette recherche s'est centrée sur les avantages et les faiblesses de deux modes de dialogue avec un système artificiel : l'oral et l'écrit. L'objectif était d'étudier l'influence de la modalité sur le comportement verbal des individus et d'interpréter les résultats en fonction des théories en psychologie sur le discours interactif et non-interactif. Dans les cinq expériences réalisées, les tâches proposées consistaient à rechercher des informations à partir de scénarii avec un système de dialogue réel. L'ensemble des résultats suggère que chaque mode d'interaction a ses propres spécificités. L'écrit favorise le contrôle de l'activité et la tâche au détriment de la dimension dialogue. L'oral favorise l'apparition de comportements collaboratifs mais est contraint par la quantité d'informations à traiter
This study focused on the advantages and disavantages of two different dialogue modes with an artificial system : the spoken and written modes. The purpose was to study the influence exerted by modality on users' verbal behaviour and to interpret the results in the light of the psychological theories which focus on interactive and non-interactive discourse. In the five conducted experiments, the tasks given to the subjects consisted in looking for information by using a real dialogue system and scenarios. All the results suggest that each interaction mode has its own specificities. Text makes the control of activity and task easier to the prejudice of the dialogue component. Speech promotes collaborative behaviours but is constrained by the amount of information to process

APA, Harvard, Vancouver, ISO, and other styles

44

Bernard, Guillaume. "Réordonnancement de candidats reponses pour un système de questions-réponses." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00606025.

Full text

Abstract:

L'objectif de cette thèse a été de proposer une approche robuste pour traiter le problème de la recherche dela réponse précise à une question.Notre première contribution a été la conception et la mise en œuvre d'un modèle de représentation robuste de l'informationet son implémentation. Son objectif est d'apporter aux phrases des documents et aux questions de l'informationstructurelle, composée de groupes de mots typés (segments typés) et de relations entre ces groupes. Ce modèle a été évalué sur différents corpus (écrits, oraux, web) et a donné de bons résultats, prouvant sa robustesse.Notre seconde contribution a consisté en la conception d'une méthode de réordonnancement des candidats réponsesretournés par un système de questions-réponses. Cette méthode a aussi été conçue pour des besoins de robustesse, ets'appuie sur notre première contribution. L'idée est de comparer une question et le passage d'où a été extraite une réponse candidate, et de calculer un score de similarité, en s'appuyant notamment sur une distance d'édition.Le réordonnanceur a été évalué sur les données de différentes campagnes d'évaluation. Les résultats obtenus sontparticulièrement positifs sur des questions longues et complexes. Ces résultats prouvent l'intérêt de notre méthode, notreapproche étant particulièrement adaptée pour traiter les questions longues, et ce quel que soit le type de données. Leréordonnanceur a ainsi été évalué sur l'édition 2010 de la campagne d'évaluation Quaero, où les résultats sont positifs.

APA, Harvard, Vancouver, ISO, and other styles

45

Spriet, Thierry. "Traitements formels de connaissances linguistiques dans un système de reconnaissance automatique de la parole continue : syrapac." Avignon, 1993. http://www.theses.fr/1993AVIG0104.

Full text

Abstract:

Les travaux presentes concernent la reconnaissance automatique de la parole continue et visent a l'elaboration d'une interface vocale adaptable rapidement et automatiquement a diverses contraintes linguistiques (lexique, syntaxe, semantique, etc. ). En accord avec cet objectif, nous avons mis en oeuvre un systeme identifiant tous les mots d'un enonce, sans utilisation des specificites du domaine d'application et controle par une strategie ascendante, complete et optimale dirigee essentiellement par la qualite acoustique des donnees. Les entrees du systeme sont constituees d'un treillis d'unites symboliques valuees, fournies par un module de decodage acoustico-phonetique. La quantite et la qualite des informations disponibles a cette etape de la reconnaissance assurent en accord avec les regles modelisant les limites de ce processus l'existence d'une solution qui decrit effectivement l'enonce dans plus de 97% des cas. Notre strategie de recherche, inspiree des travaux de w. A. Woods, realise l'analyse optimale du graphe non lineaire des unites phonetiques et propose en fonction des informations linguistiques disponibles une representation du message (forme orthographique de l'enonce, formule logique associee, etc. ). L'ensemble des connaissances linguistiques (lexique, syntaxe, semantique) constitue un parametre du systeme qui lui est donne sous la forme de regles representees dans le formalisme des grammaires de metamorphose

APA, Harvard, Vancouver, ISO, and other styles

46

Wu, Qin. "Élaboration d'algorithmesde la reconnaissance vocale à bord de véhicule." Paris 11, 1987. http://www.theses.fr/1987PA112293.

Full text

Abstract:

Ce mémoire traite principalement du problème de la reconnaissance de mots isolés à bord de véhicule. Dans cette application particulière, le bruit injecté dans le système a un niveau très variable et parfois très élevé par rapport la parole. Nous présentons dans les différents chapitres les aspects portant sur; - la localisation de la parole dans le bruit, - la discrimination du bruit et de la parole, - l'adaptation du système à l'ambiance, la soustraction du bruit lors de la reconnaissance. Des algorithmes portent sur l'ensemble de la reconnaissance vocale sont aussi discutés et développés. Un système de reconnaissance de mots isolés réalisé autour d'un microcontrôleur 8096 est également présenté dans le dernier chapitre
This dissertation treats principally the problem of recognition of isolated words pronounced inside a vehicule. In this particular application, the noise injected into the recognition system has a high and variable level with respect to the speech signal. The different chapters will deal with: the localisation of the speech phrase within the noise, the discrimination of noise with respect to speech, - the adaptation of the system with respect to the ambient environment, the noise soustraction. Algorithms for speech recognition are also discussed and developed. The last chapter describes a speech recognition system designed around o single-chip microprocesseur (INTEL 8096)

APA, Harvard, Vancouver, ISO, and other styles

47

Roussanaly, Azim. "Dial, la composante dialogue d'un système de communication orale homme-machine finalisée en langage naturel." Nancy 1, 1988. http://www.theses.fr/1988NAN10461.

Full text

Abstract:

Les dialogues dont le traitement est envisagé sont caractérisés par: 1) le langage autorisé qui correspond à un sous-langage limité par l'univers de l'application ; 2) la tâche à réaliser qui appartient à une famille d'applications : les demandes de renseignements. L'application test retenue est la demande de renseignements administratifs sur la base des pages roses de l'annuaire téléphonique ; 3) La population visée qui est le grand public, c'est-à-dire une population à priori non entraînée

APA, Harvard, Vancouver, ISO, and other styles

48

Khouzaimi, Hatim. "Turn-taking enhancement in spoken dialogue systems with reinforcement learning." Thesis, Avignon, 2016. http://www.theses.fr/2016AVIG0213/document.

Full text

Abstract:

Les systèmes de dialogue incrémentaux sont capables d’entamer le traitement des paroles de l’utilisateur au moment même où il les prononce (sans attendre de signal de fin de phrase tel un long silence par exemple). Ils peuvent ainsi prendre la parole à n’importe quel moment et l’utilisateur peut faire de même (et interrompre le système). De ce fait, ces systèmes permettent d’effectuer une plus large palette de comportements de prise de parole en comparaison avec les systèmes de dialogue traditionnels. Cette thèse s’articule autour de la problématique suivante : est-il possible pour un système de dialogue incrémental d’apprendre une stratégie optimale de prise de parole de façon autonome? Tout d’abord, une analyse des mécanismes sous-jacents à la dynamique de prise de parole dans une conversation homme-homme a permis d’établir une taxonomie de ces phénomènes. Ensuite, une nouvelle architecture permettant de doter les systèmes de dialogues conventionnels de capacités de traitement incrémentales de la parole, à moindre coût, a été proposée. Dans un premier temps, un simulateur de dialogue destiné à répliquer les comportements incrémentaux de l’utilisateur et de la reconnaissance vocale a été développé puis utilisé pour effectuer les premier tests de stratégies de dialogue incrémentales. Ces dernières ont été développées à base de règles issues de l’analyse effectuée lors de l’établissement de la taxonomie des phénomènes de prise de parole. Les résultats de la simulation montrent que le caractère incrémental permet d’obtenir des interactions plus efficaces. La meilleure stratégie à base de règles a été retenue comme référence pour la suite. Dans un second temps, une stratégie basée sur l’apprentissage par renforcement a été implémentée. Elle est capable d’apprendre à optimiser ses décisions de prise de parole de façon totalement autonome étant donnée une fonction de récompense. Une première comparaison, en simulation, a montré que cette stratégie engendre des résultats encore meilleurs par rapport à la stratégie à base de règles. En guise de validation, une expérience avec des utilisateurs réels a été menée (interactions avec une maison intelligente). Une amélioration significative du taux de complétion de tâche a été constatée dans le cas de la stratégie apprise par renforcement et ce, sans dégradation de l’appréciation globale par les utilisateurs de la qualité du dialogue (en réalité, une légère amélioration a été constatée)
Incremental dialogue systems are able to process the user’s speech as it is spoken (without waiting for the end of a sentence before starting to process it). This makes them able to take the floor whenever they decide to (the user can also speak whenever she wants, even if the system is still holding the floor). As a consequence, they are able to perform a richer set of turn-taking behaviours compared to traditional systems. Several contributions are described in this thesis with the aim of showing that dialogue systems’ turn-taking capabilities can be automatically improved from data. First, human-human dialogue is analysed and a new taxonomy of turn-taking phenomena in human conversation is established. Based on this work, the different phenomena are analysed and some of them are selected for replication in a human-machine context (the ones that are more likely to improve a dialogue system’s efficiency). Then, a new architecture for incremental dialogue systems is introduced with the aim of transforming a traditional dialogue system into an incremental one at a low cost (also separating the turn-taking manager from the dialogue manager). To be able to perform the first tests, a simulated environment has been designed and implemented. It is able to replicate user and ASR behaviour that are specific to incremental processing, unlike existing simulators. Combined together, these contributions led to the establishement of a rule-based incremental dialogue strategy that is shown to improve the dialogue efficiency in a task-oriented situation and in simulation. A new reinforcement learning strategy has also been proposed. It is able to autonomously learn optimal turn-taking behavious throughout the interactions. The simulated environment has been used for training and for a first evaluation, where the new data-driven strategy is shown to outperform both the non-incremental and rule-based incremental strategies. In order to validate these results in real dialogue conditions, a prototype through which the users can interact in order to control their smart home has been developed. At the beginning of each interaction, the turn-taking strategy is randomly chosen among the non-incremental, the rule-based incremental and the reinforcement learning strategy (learned in simulation). A corpus of 206 dialogues has been collected. The results show that the reinforcement learning strategy significantly improves the dialogue efficiency without hurting the user experience (slightly improving it, in fact)

APA, Harvard, Vancouver, ISO, and other styles

49

Ouayoun, Michel-Christian. "Traitement phonetique de la parole pour implants cochleaires." Paris 11, 1997. http://www.theses.fr/1997PA112454.

Full text

Abstract:

Certains utilisateurs d'implant cochleaire, meme multi-electrodes, n'ont une comprehension de la parole, qu'avec l'aide de la lecture labiale, alors qu'a l'evidence ils possedent de bonnes capacites cognitives. Le probleme releve alors essentiellement d'une inadequation entre le traitement du signal de parole et les capacites residuelles de codage et de transmission du nerf auditif. Pour ces patients, nous proposons d'effectuer un codage de l'information phonetique de la parole, au lieu d'un traitement acoustique du signal sonore. Apres une presentation generale des implants cochleaires et de leurs ameliorations envisagees actuellement, la demarche du choix d'un codage phonemique de la parole est exposee. La methode envisagee transforme le signal continu de la parole en series de signaux electriques discrets de stimulation, dits motifs. Chaque motif represente un phoneme de la langue francaise. L'auteur rapporte ensuite les donnees bibliographiques sur les contraintes neurophysiologiques generales de la stimulation electro-cochleaire, puis les dimensions psychometriques disponibles pour effectuer le codage phonetique chez un utilisateur d'implant cochleaire volontaire pour participer a cette etude. Enfin l'auteur expose les essais d'un systeme de synthese phonemique de la parole. Les resultats montrent que cet utilisateur d'implant cochleaire a pu, par l'apprentissage, attribuer une valeur phonetique aux motifs, sur des mots puis des phrases.

APA, Harvard, Vancouver, ISO, and other styles

50

Bougares, Fethi. "Attelage de systèmes de transcription automatique de la parole." Phd thesis, Université du Maine, 2012. http://tel.archives-ouvertes.fr/tel-00839990.

Full text

Abstract:

Nous abordons, dans cette thèse, les méthodes de combinaison de systèmesde transcription de la parole à Large Vocabulaire. Notre étude se concentre surl'attelage de systèmes de transcription hétérogènes dans l'objectif d'améliorerla qualité de la transcription à latence contrainte. Les systèmes statistiquessont affectés par les nombreuses variabilités qui caractérisent le signal dela parole. Un seul système n'est généralement pas capable de modéliserl'ensemble de ces variabilités. La combinaison de différents systèmes detranscription repose sur l'idée d'exploiter les points forts de chacun pourobtenir une transcription finale améliorée. Les méthodes de combinaisonproposées dans la littérature sont majoritairement appliquées a posteriori,dans une architecture de transcription multi-passes. Cela nécessite un tempsde latence considérable induit par le temps d'attente requis avant l'applicationde la combinaison.Récemment, une méthode de combinaison intégrée a été proposée. Cetteméthode est basée sur le paradigme de décodage guidé (DDA :Driven DecodingAlgorithm) qui permet de combiner différents systèmes durant le décodage. Laméthode consiste à intégrer des informations en provenance de plusieurs systèmes dits auxiliaires dans le processus de décodage d'un système dit primaire.Notre contribution dans le cadre de cette thèse porte sur un double aspect : d'une part, nous proposons une étude sur la robustesse de la combinaison par décodage guidé. Nous proposons ensuite, une amélioration efficacement généralisable basée sur le décodage guidé par sac de n-grammes,appelé BONG. D'autre part, nous proposons un cadre permettant l'attelagede plusieurs systèmes mono-passe pour la construction collaborative, à latenceréduite, de la sortie de l'hypothèse de reconnaissance finale. Nous présentonsdifférents modèles théoriques de l'architecture d'attelage et nous exposons unexemple d'implémentation en utilisant une architecture client/serveur distribuée. Après la définition de l'architecture de collaboration, nous nous focalisons sur les méthodes de combinaison adaptées à la transcription automatiqueà latence réduite. Nous proposons une adaptation de la combinaison BONGpermettant la collaboration, à latence réduite, de plusieurs systèmes mono-passe fonctionnant en parallèle. Nous présentons également, une adaptationde la combinaison ROVER applicable durant le processus de décodage via unprocessus d'alignement local suivi par un processus de vote basé sur la fréquence d'apparition des mots. Les deux méthodes de combinaison proposéespermettent la réduction de la latence de la combinaison de plusieurs systèmesmono-passe avec un gain significatif du WER.

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!