Academic literature on the topic 'Segmentação de áudio'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Segmentação de áudio.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Segmentação de áudio"

1

Borém, Fausto. "“... Foda!”: a bossa das palavras, música e imagens de Caetano Veloso." ARJ – Art Research Journal / Revista de Pesquisa em Artes 3, no. 2 (December 18, 2016): 117–59. http://dx.doi.org/10.36025/arj.v3i2.8816.

Full text
Abstract:
Estudo sobre o trinômio texto-música-imagem no videoclipe A Bossa Nova é foda do compositor, poeta e cantor Caetano Veloso, dirigido por Fernando Young e Tonho Quinta-feira (VELOSO, BANDA CÊ, YOUNG e QUINTA-FEIRA, 2013), a partir de referenciais analíticos multidisciplinares: [1] a interação entre as linguagens verbais, sonoras e imagéticas na compreensão e comunicação de significados (PEIRCE, 2005; SANTAELLA, 2005; PLAZA, 2003); [2] os conceitos de Segmentação, Contorno de Ativação, Cinemática, Dinâmica e Pontos de Sincronização em movimentos de dança (HAGA, 2008, adaptados à análise de vídeos de música por BORÉM, 2014, BORÉM, 2016); [3] o reconhecimento de emoções e sensações na linguagem corporal, especialmente nas expressões faciais (emoções básicas, EKMAN e FRIESEN, 2003). Os resultados mostram que a intrincada codificação na letra da música apresenta grande correspondência com ambos os sons da gravação de áudio e o videoclipe. Mais do que isso, a integração entre estas três instâncias de comunicação – palavras, sons e imagens – forma um complexo e sofisticado mosaico com grande unidade estrutural nos níveis locais, médios e global da obra, permitindo tanto uma leitura e fruição imediatas quanto uma compreensão analítica mais aprofundada.
APA, Harvard, Vancouver, ISO, and other styles
2

Cardoso, Brayna, and Regina Célia Fernandes Cruz. "ANÁLISE SOCIOFONÉTICA DO PORTUGUÊS FALADO EM SÃO LUÍS/MA COM BASE EM DADOS AMPER | SOCIOPHONETIC ANALYSIS OF PORTUGUESE SPOKEN IN SÃO LUÍS / MA BASED ON AMPER DATA." Estudos Linguísticos e Literários, no. 63 (October 3, 2019): 24. http://dx.doi.org/10.9771/ell.v0i63.33763.

Full text
Abstract:
<div class="page" title="Page 1"><div class="section"><div class="layoutArea"><div class="column"><p><span>Resumo: </span><span>O artigo apresenta uma análise comparativa intradialetal do português falado em São Luís, com a finalidade de caracterizar o padrão entoacional da variedade, no que diz respeito as sentenças declarativas neutras e interrogativas totais. A teoria segue as concepções da Sociofonética (FELLONI, 2011), visto que empreende uma análise acústica da variação entoacional da variedade ludovicense com base nos dados AMPER-POR. Ao todo foram 1.836 dados analisados (51 sentenças x 2 modalidades x 3 melhores repetições x 6 locutores). A metodologia é composta das seguintes etapas: codificação das repetições; isolamento das repetições; segmentação automática dos sinais de áudio; extração das medidas acústicas das vogais e das médias dos parâmetros físicos controlados; seleção das 3 melhores repetições; normalização dos dados e produção de gráficos no R. Os resultados comprovam que, apenas a F0 atuou como fator determinante na discriminação da entoação modal, a duração e a intensidade atuaram mais com relação ao acento lexical, contudo, não foram fatores determinantes no que concerne à entoação modal.</span></p><div class="page" title="Page 2"><div class="layoutArea"><div class="column"><p><span>Abstract: </span><span>The article presents an intradialetal comparative analysis of the Portuguese spoken in São Luís, with the purpose of characterizing the intonational pattern of the variety, with respect to the neutral declarative and total interrogative sentences. The theory follows the conceptions of Sociophonetic (FELLONI, 2011), since it undertakes an acoustic analysis of the intonational variation of the ludovic variety based on AMPER-POR data. In total, 1.836 data were analyzed (51 sentences x 2 modalities x 3 best repeats x 6 speakers). The methodology is composed of the following steps: repetition coding; isolation of replicates; automatic segmentation of audio signals; extraction of the acoustic measures of the vowels and the means of the controlled physical parameters; selection of the 3 best replicates; normalization of the data and production of graphs in the R. The results show that only F0 acted as a determining factor in the discrimination of modal intonation, duration and intensity acted more in relation to the lexical accent, however, were not determinant factors with respect to modal intonation. </span></p><p><span>Keywords</span><span>: Sociophonetic. Prosodic Analysis. Brazilian Portuguese. AMPER-POR project. São Luís. </span></p></div></div></div><p><span><br /></span></p><p> </p></div></div></div></div>
APA, Harvard, Vancouver, ISO, and other styles
3

Fonseca, Mariana Fernandes. "A correlação entre os contornos melódicos e suas respectivas funções pragmáticas: um estudo experimental." Entrepalavras 10, no. 1 (April 28, 2020): 346. http://dx.doi.org/10.22168/2237-6321-11741.

Full text
Abstract:
A consciência fonológica se divide conceitualmente em consciência fonológica analítica e consciência fonológica holística (MORAIS, 1991). A primeira permite a segmentação consciente de constituintes da fala. Já a segunda possibilita a operação mental consciente de propriedades suprassegmentais da fala. Está em andamento um programa de experimentos psicolinguísticos que visa observar a relação entre o desenvolvimento da consciência fonológica holística, doravante consciência prosódica, e o aprendizado da leitura. Dentro desse Programa, estão sendo realizados testes com adultos letrados como linha de base. Este trabalho apresenta um estudo experimental com 23 adultos cujo objetivo é observar a capacidade de identificação da correlação dos padrões dos contornos melódicos do português brasileiro com suas respectivas funções pragmáticas. A tarefa de escolha restrita aferiu a capacidade de identificação da correlação dos padrões dos contornos melódicos do português brasileiro de acordo com Moraes (2008) — de pergunta, declaração e comando — com suas respectivas funções pragmáticas. Os áudios foram modificados no programa Praat de modo que fosse retirada a parte segmental. Além dos tempos de decisão, também foram registrados os tempos médios de resposta. Os dados coletados receberam tratamento estatístico através do programa EzAnova. Os resultados apontam para a facilidade de relação entre o contorno melódico da pergunta e sua função pragmática (75% de acertos e 1617ms de tempo médio de resposta).
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Segmentação de áudio"

1

Setubal, Phabio Junckes. "Classificação de sinais de áudio com ênfase na segmentação do canto dentro de sinais de música baseada em análise harmônica." Florianópolis, SC, 2004. http://repositorio.ufsc.br/xmlui/handle/123456789/86867.

Full text
Abstract:
Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Engenharia Elétrica
Made available in DSpace on 2012-10-21T11:30:11Z (GMT). No. of bitstreams: 1 212259.pdf: 2419766 bytes, checksum: 59a3b2dc3c314557116536d0f0440000 (MD5)
A área de pesquisa conhecida como classificação de sinais de áudio busca realizar a identificação automática das classes de áudio (fala, música, ruído, canto, dentre outras). Inicialmente, o objetivo deste trabalho é apresentar o estado-da-arte nessa área de pesquisa e discutir a sua estrutura padrão de diagrama em blocos. Atenção especial é dada à etapa de extração de parâmetros. Posteriormente, o objetivo do trabalho adquire caráter de inovação científica, concentrando-se no tema específico de segmentação do canto dentro de sinais de música. A abordagem proposta baseia-se na diferença entre o conteúdo harmônico dos sinais de canto e de instrumentos musicais, observadas através de análise visual do espectrograma. Os resultados obtidos são comparados com os de outra técnica proposta na literatura, usando o mesmo banco de dados. Mesmo considerando um método de medida de desempenho mais criterioso, a taxa de acerto obtida situa-se na mesma faixa da técnica usada como comparação, em torno de 80%. Como vantagem, a abordagem aqui proposta apresenta menor complexidade computacional. Adicionalmente, permite discriminar os diferentes tipos de erro envolvidos no processo de segmentação, sugerindo alternativas para reduzi-los, quando possível. Finalmente, a partir do algoritmo proposto, é realizado um primeiro experimento com o objetivo de separar os sinais de canto de instrumentos musicais dentro de um sinal de música. Os resultados subjetivos obtidos indicam que o processo de separação proposto opera satisfatoriamente.
APA, Harvard, Vancouver, ISO, and other styles
2

Pires, André Salim. "Métodos de segmentação musical baseados em descritores sonoros." Universidade de São Paulo, 2011. http://www.teses.usp.br/teses/disponiveis/45/45134/tde-14082011-204700/.

Full text
Abstract:
Esta dissertação apresenta um estudo comparativo de diferentes métodos computacionais de segmentação estrutural musical, onde o principal objetivo é delimitar fronteiras de seções musicais em um sinal de áudio, e rotulá-las, i.e. agrupar as seções encontradas que correspondem a uma mesma parte musical. São apresentadas novas propostas para segmentação estrutural nãosupervisionada, incluindo métodos para processamento em tempo real, alcançando resultados com taxas de erro inferiores a 12%. O método utilizado compreende um estudo dos descritores sonoros e meios de modelá-los temporalmente, uma exposição das técnicas computacionais de segmentação estrutural e novos métodos de avaliação dos resultados que penalizam tanto a incorreta detecção das fronteiras quanto o número incorreto de rótulos encontrados. O desempenho de cada técnica computacional é calculado utilizando diferentes conjuntos de descritores sonoros e os resultados são apresentados e analisados tanto quantitativa quanto qualitativamente.
A comparative study of different music structural segmentation methods is presented, where the goal is to delimit the borders of musical sections and label them, i.e. group the sections that correspond to the same musical part. Novel proposals for unsupervised segmentation are presented, including methods for real-time segmentation, achieving expressive results, with error ratio less then 12%. Our method consists of a study of sound descriptors, an exposition of the computational techniques for structural segmentation and the description of the evaluation methods utilized, which penalize both incorrect boundary detection and incorrect number of labels. The performance of each technique is calculated using different sound descriptor sets and the results are presented and analysed both from quantitative and qualitative points-of-view.
APA, Harvard, Vancouver, ISO, and other styles
3

Veiga, Arlindo Oliveira da. "Treino não supervisionado de modelos acústicos para reconhecimento de fala." Doctoral thesis, 2014. http://hdl.handle.net/10316/24262.

Full text
Abstract:
Tese de doutoramento em Engenharia Electrotécnica e de Computadores, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra
Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis por esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistema de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridades entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual publicou-se vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, código fonte de todo sistema de treino e conversão e um demonstrador online.
This thesis summarizes the works done in the automatic speech processing field aiming to increase the amount of the linguistic resources available for European Portuguese language. The development stage and the application of speech technologies into a language are related to the quantity and quality of resources available for that given language. Few languages have all the required resources to implement speech technologies within free-access and public domain. Like many other language, the Portuguese language lacks public and free resources which may hinder the development and the application of speech technologies that incorporate the Portuguese language. The works described in this thesis present an approach to create speech databases, using only the public and free-access resources, starting from multimedia signals without orthographic or phonetic transcriptions. It this sense, a solution is presented to take advantage of the wide availability in the public domain of multimedia material (e.g. podcasts) and select appropriate speech segments to train acoustic models. To this end, several systems have been developed to automatically segment and classify broadcast news. These systems can be combined to build speech databases with phonetic transcription without human intervention. A system was developed to automatically convert graphemes to phonemes based on phonological rules and statistical models. This hybrid approach is justified by the developments in machine learning algorithms applied to the conversion of graphemes into phonemes and by the fact that the Portuguese language presents a reasonable phonetic/phonologic regularity and an orthography that is roughly phonologically based. Using this system, a pronunciation dictionary was created including about 40 thousands entries that where manually confirmed. They were implemented a system for segmentation into five predetermined acoustic classes (speech, music, noise, speech with music and speech with noise) and a system for speaker diarization. These systems use various techniques such as acoustic fingerprint, Gaussian mixture model and Bayesian information criterion that normally are used in other speech processing tasks. In order to select appropriate audio segments or discard non-prepared speech segments that may impair acoustic models training, it was developed a system to detect speaking styles. The detection of speaking styles is based on the combination of acoustic and prosodic parameters, on automatic segmentation and on support vector machine classifiers. Also in this scope, a study was made in order to characterize the hesitation events present in the Portuguese broadcast news. The transcription of the audio databases is essential in the process of acoustic models training. The large-vocabulary continuous speech recognition system is usually used to do automatic transcription wen the database do not have any transcripts. In this thesis, it is proposed to use word-spotting system to provide phonetic transcriptions of speech segments. A preliminary implementation of a word-spotting system based on phoneme models was conducted. A strategy was proposed to decrease the system response time, creating, a priori, a sort of “acoustic signature” for each audio signal with the values of all calculations which do not depend on the searching word as for example the likelihood of all states of phoneme models. The detection of a word uses similarity measures based on likelihood of word model and likelihood of filler model, a peak detector and a threshold value defined as to minimize detection errors. Several resources for the Portuguese language were published that resulted from the application of the various systems developed throughout the development of this thesis with particular emphasis on the graphemes to phonemes system from which it was published several dictionaries of pronunciation, dictionary with heterophonic homographs words, dictionary of foreign words, statistical models for converting graphemes to phonemes, the source code of the whole system of training as well as conversion and an online demo.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography