Contents
Academic literature on the topic 'Segmentação de áudio'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Segmentação de áudio.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Journal articles on the topic "Segmentação de áudio"
Borém, Fausto. "“... Foda!”: a bossa das palavras, música e imagens de Caetano Veloso." ARJ – Art Research Journal / Revista de Pesquisa em Artes 3, no. 2 (December 18, 2016): 117–59. http://dx.doi.org/10.36025/arj.v3i2.8816.
Full textCardoso, Brayna, and Regina Célia Fernandes Cruz. "ANÁLISE SOCIOFONÉTICA DO PORTUGUÊS FALADO EM SÃO LUÍS/MA COM BASE EM DADOS AMPER | SOCIOPHONETIC ANALYSIS OF PORTUGUESE SPOKEN IN SÃO LUÍS / MA BASED ON AMPER DATA." Estudos Linguísticos e Literários, no. 63 (October 3, 2019): 24. http://dx.doi.org/10.9771/ell.v0i63.33763.
Full textFonseca, Mariana Fernandes. "A correlação entre os contornos melódicos e suas respectivas funções pragmáticas: um estudo experimental." Entrepalavras 10, no. 1 (April 28, 2020): 346. http://dx.doi.org/10.22168/2237-6321-11741.
Full textDissertations / Theses on the topic "Segmentação de áudio"
Setubal, Phabio Junckes. "Classificação de sinais de áudio com ênfase na segmentação do canto dentro de sinais de música baseada em análise harmônica." Florianópolis, SC, 2004. http://repositorio.ufsc.br/xmlui/handle/123456789/86867.
Full textMade available in DSpace on 2012-10-21T11:30:11Z (GMT). No. of bitstreams: 1 212259.pdf: 2419766 bytes, checksum: 59a3b2dc3c314557116536d0f0440000 (MD5)
A área de pesquisa conhecida como classificação de sinais de áudio busca realizar a identificação automática das classes de áudio (fala, música, ruído, canto, dentre outras). Inicialmente, o objetivo deste trabalho é apresentar o estado-da-arte nessa área de pesquisa e discutir a sua estrutura padrão de diagrama em blocos. Atenção especial é dada à etapa de extração de parâmetros. Posteriormente, o objetivo do trabalho adquire caráter de inovação científica, concentrando-se no tema específico de segmentação do canto dentro de sinais de música. A abordagem proposta baseia-se na diferença entre o conteúdo harmônico dos sinais de canto e de instrumentos musicais, observadas através de análise visual do espectrograma. Os resultados obtidos são comparados com os de outra técnica proposta na literatura, usando o mesmo banco de dados. Mesmo considerando um método de medida de desempenho mais criterioso, a taxa de acerto obtida situa-se na mesma faixa da técnica usada como comparação, em torno de 80%. Como vantagem, a abordagem aqui proposta apresenta menor complexidade computacional. Adicionalmente, permite discriminar os diferentes tipos de erro envolvidos no processo de segmentação, sugerindo alternativas para reduzi-los, quando possível. Finalmente, a partir do algoritmo proposto, é realizado um primeiro experimento com o objetivo de separar os sinais de canto de instrumentos musicais dentro de um sinal de música. Os resultados subjetivos obtidos indicam que o processo de separação proposto opera satisfatoriamente.
Pires, André Salim. "Métodos de segmentação musical baseados em descritores sonoros." Universidade de São Paulo, 2011. http://www.teses.usp.br/teses/disponiveis/45/45134/tde-14082011-204700/.
Full textA comparative study of different music structural segmentation methods is presented, where the goal is to delimit the borders of musical sections and label them, i.e. group the sections that correspond to the same musical part. Novel proposals for unsupervised segmentation are presented, including methods for real-time segmentation, achieving expressive results, with error ratio less then 12%. Our method consists of a study of sound descriptors, an exposition of the computational techniques for structural segmentation and the description of the evaluation methods utilized, which penalize both incorrect boundary detection and incorrect number of labels. The performance of each technique is calculated using different sound descriptor sets and the results are presented and analysed both from quantitative and qualitative points-of-view.
Veiga, Arlindo Oliveira da. "Treino não supervisionado de modelos acústicos para reconhecimento de fala." Doctoral thesis, 2014. http://hdl.handle.net/10316/24262.
Full textEsta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis por esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistema de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridades entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual publicou-se vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, código fonte de todo sistema de treino e conversão e um demonstrador online.
This thesis summarizes the works done in the automatic speech processing field aiming to increase the amount of the linguistic resources available for European Portuguese language. The development stage and the application of speech technologies into a language are related to the quantity and quality of resources available for that given language. Few languages have all the required resources to implement speech technologies within free-access and public domain. Like many other language, the Portuguese language lacks public and free resources which may hinder the development and the application of speech technologies that incorporate the Portuguese language. The works described in this thesis present an approach to create speech databases, using only the public and free-access resources, starting from multimedia signals without orthographic or phonetic transcriptions. It this sense, a solution is presented to take advantage of the wide availability in the public domain of multimedia material (e.g. podcasts) and select appropriate speech segments to train acoustic models. To this end, several systems have been developed to automatically segment and classify broadcast news. These systems can be combined to build speech databases with phonetic transcription without human intervention. A system was developed to automatically convert graphemes to phonemes based on phonological rules and statistical models. This hybrid approach is justified by the developments in machine learning algorithms applied to the conversion of graphemes into phonemes and by the fact that the Portuguese language presents a reasonable phonetic/phonologic regularity and an orthography that is roughly phonologically based. Using this system, a pronunciation dictionary was created including about 40 thousands entries that where manually confirmed. They were implemented a system for segmentation into five predetermined acoustic classes (speech, music, noise, speech with music and speech with noise) and a system for speaker diarization. These systems use various techniques such as acoustic fingerprint, Gaussian mixture model and Bayesian information criterion that normally are used in other speech processing tasks. In order to select appropriate audio segments or discard non-prepared speech segments that may impair acoustic models training, it was developed a system to detect speaking styles. The detection of speaking styles is based on the combination of acoustic and prosodic parameters, on automatic segmentation and on support vector machine classifiers. Also in this scope, a study was made in order to characterize the hesitation events present in the Portuguese broadcast news. The transcription of the audio databases is essential in the process of acoustic models training. The large-vocabulary continuous speech recognition system is usually used to do automatic transcription wen the database do not have any transcripts. In this thesis, it is proposed to use word-spotting system to provide phonetic transcriptions of speech segments. A preliminary implementation of a word-spotting system based on phoneme models was conducted. A strategy was proposed to decrease the system response time, creating, a priori, a sort of “acoustic signature” for each audio signal with the values of all calculations which do not depend on the searching word as for example the likelihood of all states of phoneme models. The detection of a word uses similarity measures based on likelihood of word model and likelihood of filler model, a peak detector and a threshold value defined as to minimize detection errors. Several resources for the Portuguese language were published that resulted from the application of the various systems developed throughout the development of this thesis with particular emphasis on the graphemes to phonemes system from which it was published several dictionaries of pronunciation, dictionary with heterophonic homographs words, dictionary of foreign words, statistical models for converting graphemes to phonemes, the source code of the whole system of training as well as conversion and an online demo.