Дисертації: "Interfaces vocales"

1

Janer, Mestres Jordi. "Singing-driven interfaces for sound synthesizers." Doctoral thesis, Universitat Pompeu Fabra, 2008. http://hdl.handle.net/10803/7550.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Els instruments musicals digitals es descomponen usualment en dues parts: la interfície d'usuari i el motor de síntesi. Tradicionalment la interfície d'usuari pren el nom de controlador musical. L'objectiu d'aquesta tesi és el disseny d'un interfície que permeti el control de la síntesi de sons instrumentals a partir de la veu cantada.

Amb la present recerca, intentem relacionar la veu amb el so dels instruments musicals, tenint en compte tan la descripció del senyal de veu, com les corresponents estratègies de mapeig per un control adequat del sintetitzador.
Proposem dos enfocaments diferents, d'una banda el control d'un sintetitzador de veu cantada, i d'altra banda el control de la síntesi de sons instrumentals. Per aquest últim, suggerim una representació del senyal de veu com a gests vocals, que inclou una sèrie d'algoritmes d'anàlisis de veu. A la vegada, per demostrar els resultats obtinguts, hem desenvolupat dos prototips a temps real.
Los instrumentos musicales digitales se pueden separar en dos componentes: el interfaz de usuario y el motor de sintesis. El interfaz de usuario se ha denominado tradicionalmente controlador musical. El objectivo de esta tesis es el diseño de un interfaz que permita el control de la sintesis de sonidos instrumentales a partir de la voz cantada.

La presente investigación pretende relacionar las caracteristicas de la voz con el sonido de los instrumentos musicales, teniendo en cuenta la descripción de la señal de voz, como las correspondientes estrategias de mapeo para un control apropiado del sintetizador. Se proponen dos enfoques distintos, el control de un sintetizador de voz cantada, y el control de la sintesis de sonidos insturmentales. Para este último, se sugiere una representación de la señal de voz como gestos vocales, incluyendo varios algoritmos de analisis de voz. Los resultados obtenidos se demuestran con dos prototipos a tiempo real.
Digital musical instruments are usually decomposed in two main constituent parts: a user interface and a sound synthesis engine. The user interface is popularly referred as a musical controller, and its design is the primary objective of this dissertation. Under the title of singing-driven interfaces, we aim to design systems that allow controlling the synthesis of musical instruments sounds with the singing voice.

This dissertation searches for the relationships between the voice and the sound of musical instruments by addressing both, the voice signal description, as well as the mapping strategies for a meaningful control of the synthesized sound.
We propose two different approaches, one for controlling a singing voice synthesizer, and another for controlling the synthesis of instrumental sounds. For the latter, we suggest to represent voice signal as vocal gestures, contributing with several voice analysis methods.
To demonstrate the obtained results, we developed two real-time prototypes.

2

Srivastava, Brij Mohan Lal. "Anonymisation du locuteur : représentation, évaluation et garanties formelles." Thesis, Université de Lille (2018-2021), 2021. https://pepite-depot.univ-lille.fr/LIBRE/EDMADIS/2021/2021LILUB029.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'émergence et la généralisation des interfaces vocales présentesdans les téléphones, les applications mobiles et les assistantsnumériques ont permis de faciliter la communication entre les citoyens,utilisateurs d'un service, et les prestataires de services. Citons àtitre d'exemple l'utilisation de mots de passe vocaux pour lesopérations bancaires, des haut-parleurs intelligents personnalisés, etc.Pour réaliser ces innovations, la collecte massive de données vocalesest essentielle aux entreprises comme aux chercheurs. Mais le stockagecentralisé à grande échelle des données vocales pose de graves menaces àla vie privée des locuteurs. En effet, le stockage centralisé estvulnérable aux menaces de cybersécurité qui, lorsqu'elles sont combinéesavec des technologies vocales avancées telles que le clonage vocal, lareconnaissance du locuteur et l'usurpation d'identité peuvent conférer àune entité malveillante la capacité de ré-identifier les locuteurs et devioler leur vie privée en accédant à leurs caractéristiques biométriquessensibles, leurs états émotionnels, leurs attributs de personnalité,leurs conditions pathologiques, etc.Les individus et les membres de la société civile du monde entier, etparticulièrement en Europe, prennent conscience de cette menace. Avecl'entrée en vigueur du règlement général sur la protection des données(RGPD), plusieurs initiatives sont lancées, notamment la publication delivres blancs et de lignes directrices, pour sensibiliser les masses etréguler les données vocales afin que la vie privée des citoyens soitprotégée.Cette thèse constitue un effort pour soutenir de telles initiatives etpropose des solutions pour supprimer l'identité biométrique deslocuteurs des signaux de parole, les rendant ainsi inutiles pourré-identifier les locuteurs qui les ont prononcés.Outre l'objectif de protéger l'identité du locuteur contre les accèsmalveillants, cette thèse vise à explorer les solutions qui le font sansdégrader l'utilité de la parole.Nous présentons plusieurs schémas d'anonymisation basés sur des méthodesde conversion vocale pour atteindre ce double objectif. La sortie detels schémas est un signal vocal de haute qualité qui est utilisablepour la publication et pour un ensemble de tâches en aval.Tous les schémas sont soumis à un protocole d'évaluation rigoureux quiest l'un des apports majeurs de cette thèse.Ce protocole a conduit à la découverte que les approches existantes neprotègent pas efficacement la vie privée et a ainsi directement inspirél'initiative VoicePrivacy qui rassemble les individus, l'industrie et lacommunauté scientifique pour participer à la construction d'un schémad'anonymisation robuste.Nous introduisons une gamme de schémas d'anonymisation dans le cadre del'initiative VoicePrivacy et prouvons empiriquement leur supériorité entermes de protection de la vie privée et d'utilité.Enfin, nous nous efforçons de supprimer l'identité résiduelle dulocuteur du signal de parole anonymisé en utilisant les techniquesinspirées de la confidentialité différentielle. De telles techniquesfournissent des garanties analytiques démontrables aux schémasd'anonymisation proposés et ouvrent des portes pour de futures recherches.En pratique, les outils développés dans cette thèse sont un élémentessentiel pour établir la confiance dans tout écosystème logiciel où lesdonnées vocales sont stockées, transmises, traitées ou publiées. Ilsvisent à aider les organisations à se conformer aux règles mandatées parles gouvernements et à donner le choix aux individus qui souhaitentexercer leur droit à la vie privée
Large-scale centralized storage of speech data poses severe privacy threats to the speakers. Indeed, the emergence and widespread usage of voice interfaces starting from telephone to mobile applications, and now digital assistants have enabled easier communication between the customers and the service providers. Massive speech data collection allows its users, for instance researchers, to develop tools for human convenience, like voice passwords for banking, personalized smart speakers, etc. However, centralized storage is vulnerable to cybersecurity threats which, when combined with advanced speech technologies like voice cloning, speaker recognition, and spoofing, may endow a malicious entity with the capability to re-identify speakers and breach their privacy by gaining access to their sensitive biometric characteristics, emotional states, personality attributes, pathological conditions, etc.Individuals and the members of civil society worldwide, and especially in Europe, are getting aware of this threat. With firm backing by the GDPR, several initiatives are being launched, including the publication of white papers and guidelines, to spread mass awareness and to regulate voice data so that the citizens' privacy is protected.This thesis is a timely effort to bolster such initiatives and propose solutions to remove the biometric identity of speakers from speech signals, thereby rendering them useless for re-identifying the speakers who spoke them.Besides the goal of protecting the speaker's identity from malicious access, this thesis aims to explore the solutions which do so without degrading the usefulness of speech.We present several anonymization schemes based on voice conversion methods to achieve this two-fold objective. The output of such schemes is a high-quality speech signal that is usable for publication and a variety of downstream tasks.All the schemes are subjected to a rigorous evaluation protocol which is one of the major contributions of this thesis.This protocol led to the finding that the previous approaches do not effectively protect the privacy and thereby directly inspired the VoicePrivacy initiative which is an effort to gather individuals, industry, and the scientific community to participate in building a robust anonymization scheme.We introduce a range of anonymization schemes under the purview of the VoicePrivacy initiative and empirically prove their superiority in terms of privacy protection and utility.Finally, we endeavor to remove the residual speaker identity from the anonymized speech signal using the techniques inspired by differential privacy. Such techniques provide provable analytical guarantees to the proposed anonymization schemes and open up promising perspectives for future research.In practice, the tools developed in this thesis are an essential component to build trust in any software ecosystem where voice data is stored, transmitted, processed, or published. They aim to help the organizations to comply with the rules mandated by civil governments and give a choice to individuals who wish to exercise their right to privacy

3

Murdoch, Michael J. "Nonverbal vocal interface /." Link to online version, 2006. https://ritdml.rit.edu/dspace/handle/1850/10346.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

4

Hatt, Grégory. "Interface homme-machine intégrant la reconnaissance vocale et l'analyse d'image /." Sion, 2008. http://doc.rero.ch/record/12810?ln=fr.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

5

Martin, Pierre. "C3i systeme de reconnaissance vocale du chinois moderne (chinese ideograms input interface)." Nice, 1994. http://www.theses.fr/1994NICE4809.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le chinois moderne ou mandarin est une langue ideographique comptant pres de 6000 caracteres. La necessite d'un codage phonetique des caracteres chinois a incite les linguistes de la chine populaire a concevoir le pinyin. Il s'agit d'un alphabet phonetique constitue des prononciations des ideogrammes. Cependant le symbole graphique n'interprete pas le symbole phonetique. Cet aspect a toujours pose des difficultes dans la conception des systemes de saisie des caracteres chinois. Afin de pallier a cet inconvenient, dans nos travaux, nous proposons un systeme de comprehension de la parole adapte a ce langage naturel. Les deux modules du systeme, a savoir le decodage acoustico-phonetique et l'analyseur linguistique ont ete elabores en fonction des specificites de cette langue. L'approche experte utilisee dans le module de dap, en l'occurence les triplets phonetiques (un son en contexte) correspond a la structure particuliere des syllabes de la forme consonne + voyelle + partie finale. Les sons en contexte correspondent aux voyelles centrales des pinyins. Pour pouvoir exploiter l'expertise phonetique, il est indispensable de disposer de bons detecteurs d'evenements acoustiques. Le suivi des formants est le plus important d'entre eux car la partie centrale d'un triplet est exclusivement une voyelle. Le ton present sur la syllabe est identifie a l'aide de l'allure de la frequence du fondamental. Un treillis de syllabes phonetiques est le resultat du module de dap. L'analyseur linguistique, qui de ce treillis, essaie de determiner, dans un premier temps, une representation lexicale (mots) puis une representation syntaxique, eventuellement incomplete voir multiple, de la phrase de depart. Cependant, le chinois moderne manque de changements morphologiques. Il recourt a l'ordre des mots, a la fonction des mots dans la phrase et a l'emploi de mots vide pour exprimer les notions et les categories grammaticales. Les analyseurs morpho-lexical et syntaxique ont ete elabores a partir de ces particularites. Une analyse semantique permet de valider la phrase en levant les ambiguites syntaxiques

6

CARNEIRO, Maria Isabel Farias. "Abordagem multidimensional para avaliação da acessibilidade de interfaces vocais considerando a modelagem da incerteza." Universidade Federal de Campina Grande, 2014. http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/1307.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-31T19:39:43Z No. of bitstreams: 1 MARIA ISABEL FARIA CARNEIRO - DISSERTAÇÃO PPGCC 2014..pdf: 45568096 bytes, checksum: 7fe570750f4904224de8b7e2f76035e2 (MD5)
Made available in DSpace on 2018-07-31T19:39:43Z (GMT). No. of bitstreams: 1 MARIA ISABEL FARIA CARNEIRO - DISSERTAÇÃO PPGCC 2014..pdf: 45568096 bytes, checksum: 7fe570750f4904224de8b7e2f76035e2 (MD5) Previous issue date: 2014-03
0 desenvolvimento de interfaces vocais [VUI - Voice User Interface) per se não é uma garantia para um processo interativo de qualidade entre usuários com deficiência visual e sistemas computacionais. Com o intuito de avaliar os problemas de acessibilidade em VUI, a presente pesquisa focalizou a proposição de uma abordagem de avaliação baseada em um conjunto de técnicas já conhecidas pela comunidade de IHC (Interação Homem-Máquina). No tocante a cada técnica utilizada, o problema foi focado a partir de diferentes perspectivas: (i) do usuário, expresso a partir das visões dos usuários sobre o produto, reunidas a partir de uma abordagem de avaliação; (ii) do especialista, expresso sob a forma de análise dos resultados dos desempenhos dos usuários em sessões de teste de acessibilidade; e (iii) da comunidade de acessibilidade, expresso com base em revisões de projeto, a fim de determinar se o projeto da interface está em conformidade com um padrão. Além disso, visando a evidenciar a incerteza associada aos julgamentos do avaliador na inspeção de conformidade do produto, incorporou-se a modelagem de incerteza, a partir da utilização de Redes Bayesianas, possibilitando ao avaliador explicitar os níveis de incerteza associados às inspeções de conformidade do produto a um padrão, por ele realizadas. A abordagem metodológica foi validada a partir de um estudo de caso envolvendo a avaliação da acessibilidade do sistema computacional DOSVOX, desenvolvido na Universidade Federal do Rio de Janeiro (UFRJ), com o objetivo de auxiliar usuários com deficiência visual no uso de sistemas computacionais. No enfoque da inspeção de conformidade, consideraram-se as partes 14 (Diálogos via menus), 17 (Diálogos via preenchimento via formulários) e 171 (Guia de acessibilidade de software) do padrão internacional ISO 9241. Por outro lado, nos enfoques da mensuração de desempenho e da sondagem da satisfação subjetiva do usuário, foram realizados testes de acessibilidade, envolvendo um universo amostrai de 100 usuários. Inicialmente, os participantes foram agrupados como cegos (40 usuários), baixa visão (20 usuários) e sem deficiência visual (40 usuários), de acordo com tipo de deficiência visual. Em seguida, eles foram classificados como principiantes (46 usuários) ou intermediários (54 usuários), de acordo com o nível de conhecimento em Informática e de experiência o produto avaliado. Os dados resultantes dos testes de acessibilidade foram processados estatisticamente, a fim de verificar a correlação entre os desempenhos dos grupos de usuários e entre o desempenho das categorias de usuários de cada grupo. O processamento estatístico dos dados evidenciou a inexistência de diferenças significativas entre os desempenhos dos grupos, bem como entre as categorias de usuários. Por outro lado, a confrontação dos resultados dos três enfoques (mensuração de desempenho do usuário, mensuração da satisfação subjetiva do usuário e inspeção de conformidade do produto a padrões) demonstrou que a abordagem de avaliação proposta produziu resultados complementares e reforçou a relevância da utilização de uma abordagem multimétodos para a avaliação de acessibilidade de interfaces vocais.
Voice interaction design per se does not provide quality assurance of the interactive process for visually impaired users. In this dissertation, a method for evaluating voice user interface (VUI) accessibility based upon a set of techniques already well-known to the HCI (Human-Computer Interaction) community is proposed. For each technique, the problem is focused from a different perspective: (i) the user's perspective, which is expressed as views on the product gathered from an inquiry-based approach; (ii) the specialist's perspective, which is expressed by the analysis of the performance results in accessibility testing sessions; and (iii) the accessibility community's perspective, which is expressed by design reviews to determine whether a user interface design conforms to standards. Additionally, Bayesian networks were used in order to make explicit the uncertainty inherent in conformity inspection processes. A case study with DOSVOX system was performed to validate the proposed approach. DOSVOX system was developed at Federal University of Rio de Janeiro (UFRJ) with the aim of helping visually impaired users use the computer. A conformity inspection was performed in accordance with parts 14 (Menu dialogues), 17 (Form-filling dialogues) 171 (Guidance on software accessibility) of ISO 9241. On the other hand, the user performance measurement and the user subjective satisfaction measurement were conducted via accessibility testing. One hundred subjects were enrolled in this study. First, they were categorized as blind (40 users), low vision (20 users) and non-visually impaired (40 users), according to their visual impairment. Second, they were grouped as novices (46 users) and intermediates (54 users), according to their knowledge level in Informatics and experience with the evaluated product. Accessibility test results were statistically analyzed in order to verify the correlation between category performances and between group performances. No statistically significant differences between the user categories or the user groups were found. On the other hand, data comparison showed that the three strategies adopted (user performance measurement, user satisfaction measurement and standard conformity inspection) add to the evaluation process, producing complimentary data that are significant to the process, and reinforcing the relevance of a multi-layered approach for the accessibility evaluation of voice user interfaces.

7

Chapman, Jana Lynn. "BYU Vocal Performance Database." BYU ScholarsArchive, 2010. https://scholarsarchive.byu.edu/etd/2146.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

The vocal performance database is a tool by which BYU vocal performance faculty and students may practice, assess, and review vocal performances, including practice juries, recitals, and end-of-semester juries. This document describes the process and results of designing, developing, implementing, and evaluating the vocal performance database. By using this tool, vocal performance professors are able to give faster, more quality feedback to students following the jury. Students are able to receive legible feedback from their professors in a timely manner.

8

Perrotin, Olivier. "Chanter avec les mains : interfaces chironomiques pour les instruments de musique numériques." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112207/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le travail de cette thèse porte sur l'étude du contrôle en temps réel de synthèse de voix chantée par une tablette graphique dans le cadre de l'instrument de musique numérique Cantor Digitalis.La pertinence de l'utilisation d'une telle interface pour le contrôle de l'intonation vocale a été traitée en premier lieu, démontrant que la tablette permet un contrôle de la hauteur mélodique plus précis que la voix réelle en situation expérimentale.Pour étendre la justesse du jeu à toutes situations, une méthode de correction dynamique de l'intonation a été développée, permettant de jouer en dessous du seuil de perception de justesse et préservant en même temps l'expressivité du musicien. Des évaluations objective et perceptive ont permis de valider l'efficacité de cette méthode.L'utilisation de nouvelles interfaces pour la musique pose la question des modalités impliquées dans le jeu de l'instrument. Une troisième étude révèle une prépondérance de la perception visuelle sur la perception auditive pour le contrôle de l'intonation, due à l'introduction d'indices visuels sur la surface de la tablette. Néanmoins, celle-ci est compensée par l'important pouvoir expressif de l'interface.En effet, la maîtrise de l'écriture ou du dessin dès l'enfance permet l'acquisition rapide d'un contrôle expert de l'instrument. Pour formaliser ce contrôle, nous proposons une suite de gestes adaptés à différents effets musicaux rencontrés dans la musique vocale. Enfin, une pratique intensive de l'instrument est réalisée au sein de l'ensemble Chorus Digitalis à des fins de test et de diffusion. Un travail de recherche artistique est conduit tant dans la mise en scène que dans le choix du répertoire musical à associer à l'instrument. De plus, un retour visuel dédié au public a été développé, afin d'aider à la compréhension du maniement de l'instrument
This thesis deals with the real-time control of singing voice synthesis by a graphic tablet, based on the digital musical instrument Cantor Digitalis.The relevance of the graphic tablet for the intonation control is first considered, showing that the tablet provides a more precise pitch control than real voice in experimental conditions.To extend the accuracy of control to any situation, a dynamic pitch warping method for intonation correction is developed. It enables to play under the pitch perception limens preserving at the same time the musician's expressivity. Objective and perceptive evaluations validate the method efficiency.The use of new interfaces for musical expression raises the question of the modalities implied in the playing of the instrument. A third study reveals a preponderance of the visual modality over the auditive perception for the intonation control, due to the introduction of visual clues on the tablet surface. Nevertheless, this is compensated by the expressivity allowed by the interface.The writing or drawing ability acquired since early childhood enables a quick acquisition of an expert control of the instrument. An ensemble of gestures dedicated to the control of different vocal effects is suggested.Finally, an intensive practice of the instrument is made through the Chorus Digitalis ensemble, to test and promote our work. An artistic research has been conducted for the choice of the Cantor Digitalis' musical repertoire. Moreover, a visual feedback dedicated to the audience has been developed, extending the perception of the players' pitch and articulation

9

Dours, Daniel. "Conception d'un système multiprocesseur traitant un flot continu de données en temps réel pour la réalisation d'une interface vocale intelligente." Grenoble 2 : ANRT, 1986. http://catalogue.bnf.fr/ark:/12148/cb375972845.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

10

Dours, Daniel. "Conception d'un systeme multiprocesseur traitant un flot continu de donnees en temps reel pour la realisation d'une interface vocale intelligente." Toulouse 3, 1986. http://www.theses.fr/1986TOU30107.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Une serie de transformations syntaxiques et semantiques permettant de paralleliser une application, sont definies dans le deuxieme chapitre. On obtient ainsi une representation de l'application en terme de reseaux de modules imbriques. Une architecture modulaire reconfigurable adaptee a ce type de representation est decrite dans le troisieme chapitre. Pour projeter l'application sur cette architecture, un langage approprie est defini et un ensemble de moyens et de methodes permettant la construction d'un logiciel interactif recherchant la configuration optimale du systeme multiprocesseur executant l'application donnee est decrit. Quant a la derniere partie, elle a pour but de montrer la parfaite adequation entre le systeme multiprocesseur ainsi concu et l'organisation modulaire d'un terminal vocal, de jeter un regard prospectif sur l'utilisation d'un tel systeme dans d'autre domaines d'application en particulier les systemes de vision et les robots intelligents

11

Xu, Kele. "Visualisation tridimensionnelle de la langue basée sur des séquences d'image échographique en mode-B." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066498/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Une interface vocale silencieuse (SSI) est un système permettant une communication vocale à partir d’un signal non audible. Un tel système emploie des capteurs qui enregistrent des données non-acoustiques, pour la reconnaissance et la synthèse vocales. Cependant, l’extraction des caractéristiques articulatoires robustes à partir de ces signaux reste un défi. La langue est une composante majeure de l'appareil vocal, et l'articulateur le plus important dans la production de parole. Une simulation réaliste du mouvement de la langue en 3D peut fournir une représentation visuelle directe et efficace de la production de parole. Cette représentation pourrait à son tour être utilisée pour améliorer les performances de reconnaissance vocale d'un SSI, ou servir d'outil dans le cadre de recherches sur la production de parole et de l'étude des troubles de l'articulation. Dans cette thèse, nous explorons un nouveau cadre de visualisation en trois dimensions de la langue, qui combine l'imagerie échographique 2D et une technique de modélisation tridimensionnelle fondée sur la physique. Tout d'abord, différentes approches sont utilisées pour suivre le mouvement de la langue dans les séquences d'images échographiques, qui peuvent être regroupées en deux principaux types de méthodes : le suivi de la granularité et le suivi de contour. Les méthodes de suivi du chatoiement (speckle tracking) comprennent le recalage de déformations (deformation registration), le flux optique, et la méthode de transformation de caractéristiques visuelles invariante à l'échelle (Scale-invariant feature transform, ou SIFT). En outre, une méthode de suivi réinitialisation basée sur l'image est proposée afin d'améliorer la robustesse du suivi du chatoiement. En comparaison avec le suivi de chatoiement, l'extraction du contour de la surface de la langue à partir d'images échographiques présente des performances supérieures et une meilleure robustesse. Dans cette thèse, un nouvel algorithme de suivi de contour est présenté pour des séquences d'images échographiques de la langue. Cet algorithme permet de suivre le mouvement des contours de la langue sur de longues durées avec une bonne robustesse. Pour résoudre la difficulté causée par les segments manquants dus au bruit ou celle causée par la surface mi-sagittale de la langue qui est parallèle à la direction de propagation de l'onde ultrasonore, nous proposons d’utiliser des contours actifs avec une contrainte de similitude de contour, qui fournissent des informations a priori sur la forme de la langue. Des expériences sur des données synthétiques et sur des images réelles acquises sur différents sujets à la cadence de 60 images par seconde montrent que la méthode proposée donne un bon contour de suivi pour ultrasons des séquences d'images, même sur des durées de quelques minutes. Cette technique peut par conséquent être utile dans des applications telles que la reconnaissance vocale où de très longues séquences doivent être analysées dans leur intégralité…
A silent speech interface (SSI) is a system to enable speech communication with non-audible signal, that employs sensors to capture non-acoustic features for speech recognition and synthesis. Extracting robust articulatory features from such signals, however, remains a challenge. As the tongue is a major component of the vocal tract, and the most important articulator during speech production, a realistic simulation of tongue motion in 3D can provide a direct, effective visual representation of speech production. This representation could in turn be used to improve the performance of speech recognition of an SSI, or serve as a tool for speech production research and the study of articulation disorders. In this thesis, we explore a novel 3D tongue visualization framework, which combines the 2D ultrasound imaging and 3D physics-based modeling technique. Firstly, different approaches are employed to follow the motion of the tongue in the ultrasound image sequences, which can be divided into two main types of methods: speckle tracking and contour tracking. The methods to track speckles include deformation registration, optical-flow, and local invariant features-based method. Moreover, an image-based tracking re-initialization method is proposed to improve the robustness of speckle tracking. Compared to speckle tracking, the extraction of the contour of the tongue surface from ultrasound images exhibits superior performance and robustness. In this thesis, a novel contour-tracking algorithm is presented for ultrasound tongue image sequences, which can follow the motion of tongue contours over long durations with good robustness. To cope with missing segments caused by noise, or by the tongue midsagittal surface being parallel to the direction of ultrasound wave propagation, active contours with a contour-similarity constraint are introduced, which can be used to provide “prior” shape information. Experiments on synthetic data and on real 60 frame per second data from different subjects demonstrate that the proposed method gives good contour tracking for ultrasound image sequences even over durations of minutes, which can be useful in applications such as speech recognition where very long sequences must be analyzed in their entirety…

12

BEZERRA, Joelma de Almeida e. Silva. "O coro cênico da Universidade da Amazônia: experienciando uma identidade a partir de um repertório musical." Universidade Federal do Pará, 2015. http://repositorio.ufpa.br/jspui/handle/2011/9985.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Submitted by Larissa Silva (larissasilva@ufpa.br) on 2018-06-11T19:51:39Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_CoroCenicoUniversidade.pdf: 5031387 bytes, checksum: b3b69d578b6518d94b96f0724c6f6781 (MD5)
Approved for entry into archive by Larissa Silva (larissasilva@ufpa.br) on 2018-06-11T19:52:06Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_CoroCenicoUniversidade.pdf: 5031387 bytes, checksum: b3b69d578b6518d94b96f0724c6f6781 (MD5)
Made available in DSpace on 2018-06-11T19:52:06Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_CoroCenicoUniversidade.pdf: 5031387 bytes, checksum: b3b69d578b6518d94b96f0724c6f6781 (MD5) Previous issue date: 2015-06-26
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
O objetivo principal desta pesquisa foi o de investigar a experiência de construção de uma “identidade”, a partir de um repertório musical do Coro Cênico da UNAMA, que originou a produção da série de CDs Trilhas D’Água, constituído de repertório musical de carimbós, lundus, cantos pastoris, cordões-de-bicho, bois, acalantos e canções, uma releitura do universo musical amazônico para a linguagem do canto-coral. Questões como de que forma a mudança no repertório musical contribuiu para a construção da “identidade” do grupo, as transformações observadas nos coristas quanto ao pensamento, o comportamento e o próprio som gerado, na comunidade acadêmica que o mantém, assim como no contexto cultural em que este grupo se insere são abordadas. A dissertação é estruturada em três seções. A primeira apresenta uma biografia contextualizada do Coro Cênico da UNAMA; a segunda descreve o processo de ensino e aprendizagem do grupo e, a prática musical é analisada na terceira, considerando a esfera social na qual o grupo se insere. São utilizadas fontes bibliográficas sobre mudança musical e identidade musical, à luz da etnomusicologia. Levantamento de dados disponíveis em blogs e sites sobre a prática coral foram realizados, assim como entrevistas “semiestruturadas” e “episódicas” com a comunidade acadêmica, alunos participantes do grupo, antigos alunos, reitor e pró-reitor da instituição, compositores e a regente, considerando a história oral recontada pelos agentes que constroem e executam a prática musical de alguma forma na universidade. Parte-se do princípio de que esses agentes são as pessoas que detém as bases e as concepções do que seja a prática musical na Universidade da Amazônia.
The main goal of this research was to investigate the experience of building an “identity” from a musical repertoire of the Universidade da Amazônia’s Coro Cênico, which led to the production of the CD series “Trilhas D'Água”, consisting of a musical repertoire retelling the Amazon musical universe in the language of choral singing. The following issues are addressed: how the change in musical repertoire contributed to the construction of the group’s "identity"; the changes observed in the chorists about the thinking, behavior and the generated sound itself; the academic community that mantains it, as well as the cultural context in which this group is inserted. The dissertation is structured in three sections. The first presents a contextualized biography of Coro Cênico da UNAMA; the second describes the group’s teaching and learning process, and the musical practice is analyzed in the third, considering the social sphere in which the group operates. Bibliographical sources about musical change and identity in the light of ethnomusicology are used . Data about choir practice available in blogs and sites were collected. Moreover, "semi-structured" and "episodic" interviews with the academic community, students from the group, rector and dean of the institution, composers and conductor were done, considering the oral history retold by the agents that build and perform musical practice at the university somehow . It starts from the principle that these agents are the people who hold the basis and conceptions of what the musical practice at the University of Amazonia is about.

13

Vacher, Michel. "Analyse sonore et multimodale dans le domaine de l'assistance à domicile." Habilitation à diriger des recherches, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00956330.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La moyenne d'âge de la population des pays industriels augmente régulièrement. Les personnes âgées vivant seules sont de plus en plus nombreuses, soit parce qu'elles préfèrent vivre de manière autonome, soit par manque de place dans les institutions spécialisées. Il faut donc trouver des solutions leur permettant de continuer à rester chez elles de manière confortable et sûre. Les habitats intelligents peuvent constituer une de ces solutions. Un des plus grands défis dans l'Assistance à la Vie Autonome (AVA) est de concevoir des habitats intelligents pour la santé qui anticipent les besoins de leurs habitants tout en maintenant leur sécurité et leur confort. Il est donc essentiel de faciliter l'interaction avec l'habitat intelligent grâce à des systèmes qui réagissent naturellement aux commandes vocales, en utilisant des microphones et pas des interfaces tactiles. Ce mémoire définit le concept de maison intelligente et présente quelques projets intéressants. Il précise ensuite de quelle manière l'assistance à domicile peut tirer parti de ce concept en s'appuyant sur l'analyse sonore. L'acceptabilité d'une interface vocale dans le cadre de l'habitat intelligent a été étudiée grâce à une expérience qui a montré quels étaient les souhaits, les attentes et les craintes des utilisateurs âgés, de leurs familles, et des travailleurs sociaux. L'analyse audio dans la maison intelligente étant un domaine de recherche encore peu exploré, l'intérêt et la manière d'analyser les informations sonores dans un habitat intelligent sont ensuite abordés par une expérience qui a permis de mettre en évidence les défis et les verrous technologiques qui devront être levés pour pouvoir utiliser les informations sonores en complément des autres modalités, et, dans le cas de la parole, la reconnaissance en conditions d'enregistre- ment distant. Une solution pratique mettant en œuvre plusieurs microphones est ensuite présentée. Le but envisagé est la réalisation d'un système de commande vocale mettant l'utilisateur en mesure de piloter son environnement non seulement par les interrupteurs et télécommandes classiques, mais aussi par la voix. L'intérêt de l'information audio combinée à celle des capteurs domotiques est ensuite mis en évidence au travers d'une analyse multimodale permettant de localiser une personne dans un habitat intelligent ou de déterminer son activité. La localisation est nécessaire, par exemple pour avoir connaissance du contexte dans lequel un ordre domotique a été donné. L'activité peut être utilisée pour observer une évolution des habitudes de la personne pour aider à un diagnostic. Pour finir, le mémoire présente les perspectives de recherche et les projets à venir de l'auteur. Il est accompagné de la reproduction de 4 communications scientifiques publiées dans des congrès sélectifs à comité de lecture.

14

Rouillard, José. "Hyperdialogue sur Internet." Phd thesis, Université Joseph Fourier (Grenoble), 2000. http://tel.archives-ouvertes.fr/tel-00006753.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse a pour objet le dialogue écrit et oral, entre un interlocuteur humain et une machine, via le réseau Internet. Nous faisons d'abord quelques rappels concernant le dialogue homme-machine (DHM) et le réseau Internet, puis nous présentons notre méthodologie de travail, basée, pour l'essentiel, sur l'usage. Nous exposons les besoins des utilisateurs en situation de recherche d'information. Les problèmes d'amorçage d'un réel système de DHM sont ensuite abordés. Nous décrivons alors la notion d'hyperdialogue et un système générique de DHM sur le Web est présenté. Puis, le premier système que nous avons mis au point pour recueillir un corpus de DHM sur le Web (Halpin-Recueil) est détaillé et quelques résultats significatifs sont commentés. Nous présentons notre réalisation logicielle complète d'un DHM, avec entrées et sorties vocales via le Web (le système Halpin-Documentaire), ainsi que les différentes composantes nécessaires pour sa mise en œuvre sur Internet. La gestion du dialogue s'effectue grâce à une technique basée sur la reconnaissance de concepts dans le discours. Les premiers résultats obtenus grâce à cette méthodologie de recueil de corpus apportent des éléments importants quant aux connaissances du domaine de la part des usagers, des expressions linguistiques utilisées et du dialogue qui s'instaure entre l'Homme et la Machine. Les résultats, l'évaluation, et les limites du système Halpin-Documentaire sont commentés avant de dresser un bilan de ces travaux et de présenter des perspectives de recherche pour le domaine étudié

15

Charbonneau, Sylvain. "L'informatisation de l'accueil téléphonique." Thèse, 2004. http://hdl.handle.net/1866/17395.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Дисертації з теми "Interfaces vocales"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями