To see the other types of publications on this topic, follow the link: Sinais de Áudio.

Dissertations / Theses on the topic 'Sinais de Áudio'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 27 dissertations / theses for your research on the topic 'Sinais de Áudio.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Lucchi, Júlio César. "Síntese digital de sinais de áudio." Instituto Tecnológico de Aeronáutica, 1992. http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=1786.

Full text
Abstract:
Nesta dissertação é estudada e proposta uma arquitetura voltada à geração de sons musicais através de técnicas da eletrônica digital. São apresentadas características dos sinais de áudio e descritas as técnicas de síntese de maior importância. É aplicada a técnica de síntese aditiva através do método "table lookup", onde propõe-se uma forma de interpolação rápida, por "hardware", para as amostras tabeladas. Com o uso de uma identidade trigonométrica são evitadas as operações de multiplicação no processamento das amostras do sinal. O desempenho da arquitetura proposta é simulado por computador.
APA, Harvard, Vancouver, ISO, and other styles
2

Becerra, Martinez Helard. "Métricas de qualidade para sinais áudio-visuais." reponame:Repositório Institucional da UnB, 2013. http://repositorio.unb.br/handle/10482/16374.

Full text
Abstract:
Submitted by Guimaraes Jacqueline (jacqueline.guimaraes@bce.unb.br) on 2014-10-03T15:03:52Z No. of bitstreams: 1 2013_HeraldBecerraMartinez.pdf: 6285388 bytes, checksum: 7642f809beedcb792ef51101cd5b4663 (MD5)
Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-10-03T15:07:17Z (GMT) No. of bitstreams: 1 2013_HeraldBecerraMartinez.pdf: 6285388 bytes, checksum: 7642f809beedcb792ef51101cd5b4663 (MD5)
Made available in DSpace on 2014-10-03T15:07:17Z (GMT). No. of bitstreams: 1 2013_HeraldBecerraMartinez.pdf: 6285388 bytes, checksum: 7642f809beedcb792ef51101cd5b4663 (MD5)
Nesta dissertação é estudada a avaliação da qualidade em sinais áudio-visuais, especificamente a avaliação subjetiva e objetiva de sinais em alta definição. O procedimento mais preciso para a aferição da qualidade é a avaliação utilizando experimentos psico-físicos (subjetivos) com observadores humanos. Esta metodologia demanda um longo período de tempo e um elevado custo operacional. Uma alternativa consiste em utilizar métricas objetivas para obter uma estimação da qualidade do sinal multimídia. As métricas objetivas podem ser classificadas segundo a quantidade de informação necessária para estimar a qualidade do sinal: (1) Referência Completa (FullReference (FR)), (2) Referência Reduzida (ReduceReference (RR)), e (3) Sem Referência (No-Reference(NR)). O objetivo desta dissertação é propor modelos de qualidade objetivos e subjetivos para sinais multimídia (áudio e vídeo), ou seja modelos áudio-visuais. Os modelos subjetivos são baseados nos dados experimentais, enquanto que os modelos objetivos (métricas FR e NR) são obtidos através de uma função de combinação de métricas de áudio e vídeo. São descritos os três experimentos psico-físicos realizados com o fim de estudar a relação entre as componentes de áudio e vídeo. Com o objetivo de obter um modelo áudio-visual objetivo, duas métricas sem-referência (NR) de áudio e vídeo foram propostas. Ao todo, são propostos neste trabalho três modelos subjetivos, três modelos objetivos com-referência (FR) e três modelos objetivos sem-referência (NR). Os resultados apresentados mostram que os modelos conseguem estimar os valores de qualidade áudio-visual de forma aceitável. O desempenho destes modelos foi comparado com o desempenho de propostas existentes na literatura. ________________________________________________________________________________________ ABSTRACT
In this work, we studied audio-visual quality assessment models, focusing on the subjective and objective quality assessment of high de nition signals. The most accurate method to determine the quality of a video is by using psychophysical experiments with human subjects (subjective metrics). However, these kinds of methods are expensive and time-consuming. Objective metrics represent a good alternative for measuring video quality. They can be classi ed according to the amount of reference (original) information used to stimate the signal quality: Full Reference (FR), Reduced Reference (RR), and No-Reference (NR) metrics. The main objective of this dissertation is to propose subjective and objective quality models to calculate the quality of multimedia (audio and video) signals, i.e. audio-visual signals. Subjective models are designed by collecting data from psychophysical experiments; meanwhile, objective models (FR and NR metrics) use quality measures of audio and video (from an audiovisual signal) and combine them into a single measure. Three psychophysical experiments were performed, with the goal of studing the relation between the audio and video components of an audio-visual signal. Moreover, in order to model the audio-visual quality metrics, two quality metrics (NR) for audio and video were proposed. In sumary, we introduce three subjective models, three FR objective models, and three NR objective models to estimate the audio-visual quality of a signal. The performance of these models was compared with the performance of other metrics available in the literature.
APA, Harvard, Vancouver, ISO, and other styles
3

Nunes, Karoline Matias de Oliveira. "Inserção de marca d'água em sinais de áudio." Instituto Tecnológico de Aeronáutica, 2007. http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=490.

Full text
Abstract:
Recentemente, sistemas de inserção de marca d'água digital foram propostos devido à necessidade de proteção da informação digital contra reprodução e distribuição. Este trabalho apresenta o algoritmo de Lie e Chang para inserir uma marca d'água em um sinal de áudio, ambos digitais, e propõe duas variações para este algoritmo. O esquema original é baseado nas alterações das amplitudes de duas seções de um grupo de amostras (Group of Samples - GoS) que contém três seções. Para embutir um bit em um GoS existem regras que são baseadas na média das amplitudes absolutas. Dependendo do bit que se deseja embutir as amplitudes das amostras de duas seções são modificadas. Após a inserção as amostras são submetidas ao teste do modelo psicoacústico para obedecer a um critério de qualidade que estabelece que 85% do sinal erro entre o sinal original e o sinal marcado deve estar abaixo de um limiar de audição no silêncio. Isto garante a imperceptibilidade da marca d'água ao ouvido humano. A primeira variação proposta para o algoritmo de Lie e Chang modifica as amplitudes das amostras ao alterar as três seções do GoS. Isto reduz a distorção introduzida pelo processo de marcação. O outro método propõe a substituição do limiar no silêncio no modelo psicoacústico pelo limiar com mascaramento. Esta proposta aumenta a robustez do sistema. Todos os métodos são testados em um conjunto com 3 músicas de estilos diferentes. O processo de extração consegue recuperar os bits da marca d'água sem erro. Os resultados mostram uma melhora no erro médio quadrático para a primeira proposta, para a segunda variação, por sua vez, observa-se uma melhora no limiar de proteção contra ataques.
APA, Harvard, Vancouver, ISO, and other styles
4

Reis, Paulo Max Gil Innocencio. "Detecção robusta de adulteração em áudio explorando a forma analítica e o subespaço do sinais interferentes da rede elétrica." reponame:Repositório Institucional da UnB, 2016. http://repositorio.unb.br/handle/10482/21669.

Full text
Abstract:
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016.
Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-08-24T20:05:58Z No. of bitstreams: 1 2016_PauloMaxGilInnocencioReis.pdf: 4145799 bytes, checksum: a906f484de27e45624aa85a6eefd6cdd (MD5)
Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-11-04T16:35:53Z (GMT) No. of bitstreams: 1 2016_PauloMaxGilInnocencioReis.pdf: 4145799 bytes, checksum: a906f484de27e45624aa85a6eefd6cdd (MD5)
Made available in DSpace on 2016-11-04T16:35:53Z (GMT). No. of bitstreams: 1 2016_PauloMaxGilInnocencioReis.pdf: 4145799 bytes, checksum: a906f484de27e45624aa85a6eefd6cdd (MD5)
Arquivos de áudio digital são uma importante fonte de vestígios e evidências relacionadas aos mais diversos crimes e conflitos. Seja por meio de gravações devidamente autorizadas pela autoridade judicial ou por gravações realizadas por um dos interlocutores em um diálogo, tais arquivos têm o potencial de serem determinantes em importantes decisões, uma vez que prestam-se a, via de regra, esclarecer algum aspecto da realidade dos fatos. Dessa forma, a autenticação dessa fonte de prova é uma tarefa muitas vezes necessária e crítica, porém ainda sujeita a muitos desafios. Com o objetivo de identificar edições em arquivos de áudio propõe-se uma técnica para detecção automática de adulterações em gravações de áudio por meio da constatação de variações anormais na frequência de oscilação de sinais interferentes da rede elétrica (ENF), eventualmente incorporados em um registro de áudio questionado. Variações anormais na ENF podem ocorrer como resultado de transições abruptas de fase decorrentes de inserções ou supressões de segmentos de áudio realizados durante o processo de edição. Dessa forma, propõe-se o estimador de ENF ESPRIT-Hilbert em conjunto com um detector de outliers baseado na curtose amostral da estimada ENF, do inglês ESPRIT-Hilbert ENF estimator in conjunction with an outlier detector based on the sample kurtosis of the estimated ENF (SPHINS). A técnica utiliza conjuntamente um estimador baseado na frequência instantânea obtida via transformada de Hilbert, e outro baseado na técnica ESPRIT. Calcula-se a curtose amostral das estimativas da ENF como medida do grau de anomalia da ENF, compondo-se um vetor de características que é aplicado a um classificador de máquinas de vetores de suporte (SVM), devidamente treinado a partir de uma base de dados conhecida para indicar a presença de edições. O método proposto tem seus resultados validados utilizando uma base de dados que contém 100 gravações telefônicas autorizadas de áudios não editados, e 100 gravações telefônicas de áudios editados. Os resultados obtidos são comparados com trabalhos correlatos anteriores. ________________________________________________________________________________________________ ABSTRACT
Digital audio recordings are an important source of evidences related to various crimes and conflicts. Whether through recordings duly authorized by a judicial authority or made by one of the parties in a dialogue, such files have the potential to be crucial in important decisions since they contribute to clarify some aspects of reality. Thus, the authentication of this source of evidence is often a necessary and critical task, but still subject to many challenges. In order to identify audio tampering we propose a technique to detect adulterations in audio recordings by exploiting abnormal variations in the Electric Network Frequency (ENF) signal eventually embedded in a questioned audio recording. These abnormal variations may be caused by abrupt phase discontinuities due to insertions and suppressions of audio segments during the tampering task. Thus, we propose the ESPRIT-Hilbert ENF estimator in conjunction with an outlier detection based on the sample kurtosis of the estimated ENF (SPHINS). The technique uses a joint estimate of ENF by two methods, one based in the Hilbert Transform, and the other in the ESPRIT approach. It calculates the sample kurtosis of the estimates as a measure of outlierness, computing a feature vector applied to a Support Vector Machine (SVM) classifier to indicate the presence of tampering. The proposed scheme is validated using an audio database with 100 edited and 100 unedited authorized audio recordings of phone calls. The results obtained are further compared with previous related works.
APA, Harvard, Vancouver, ISO, and other styles
5

Moreto, Fernando Alves de Lima. "Análise de componentes independentes aplicada à separação de sinais de áudio." Universidade de São Paulo, 2008. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-30052008-133011/.

Full text
Abstract:
Este trabalho estuda o modelo de análise em componentes independentes (ICA) para misturas instantâneas, aplicado na separação de sinais de áudio. Três algoritmos de separação de misturas instantâneas são avaliados: FastICA, PP (Projection Pursuit) e PearsonICA; possuindo dois princípios básicos em comum: as fontes devem ser independentes estatisticamente e não-Gaussianas. Para analisar a capacidade de separação dos algoritmos foram realizados dois grupos de experimentos. No primeiro grupo foram geradas misturas instantâneas, sinteticamente, a partir de sinais de áudio pré-definidos. Além disso, foram geradas misturas instantâneas a partir de sinais com características específicas, também geradas sinteticamente, para avaliar o comportamento dos algoritmos em situações específicas. Para o segundo grupo foram geradas misturas convolutivas no laboratório de acústica do LPS. Foi proposto o algoritmo PP, baseado no método de Busca de Projeções comumente usado em sistemas de exploração e classificação, para separação de múltiplas fontes como alternativa ao modelo ICA. Embora o método PP proposto possa ser utilizado para separação de fontes, ele não pode ser considerado um método ICA e não é garantida a extração das fontes. Finalmente, os experimentos validam os algoritmos estudados.
This work studies Independent Component Analysis (ICA) for instantaneous mixtures, applied to audio signal (source) separation. Three instantaneous mixture separation algorithms are considered: FastICA, PP (Projection Pursuit) and PearsonICA, presenting two common basic principles: sources must be statistically independent and non-Gaussian. In order to analyze each algorithm separation capability, two groups of experiments were carried out. In the first group, instantaneous mixtures were generated synthetically from predefined audio signals. Moreover, instantaneous mixtures were generated from specific signal generated with special features, synthetically, enabling the behavior analysis of the algorithms. In the second group, convolutive mixtures were probed in the acoustics laboratory of LPS at EPUSP. The PP algorithm is proposed, based on the Projection Pursuit technique usually applied in exploratory and clustering environments, for separation of multiple sources as an alternative to conventional ICA. Although the PP algorithm proposed could be applied to separate sources, it couldnt be considered an ICA method, and source extraction is not guaranteed. Finally, experiments validate the studied algorithms.
APA, Harvard, Vancouver, ISO, and other styles
6

Rodrigues, João Manuel de Oliveira e. Silva. "Codificação digital de áudio baseada em retroadaptação perceptual." Doctoral thesis, Universidade de Aveiro, 2004. http://hdl.handle.net/10773/2221.

Full text
Abstract:
Doutoramento em Engenharia Electrónica
Faz-se uma análise do problema da codificação digital de sinais áudio de alta qualidade e identifica-se o princípio de codificação perceptual como a solução mais satisfatória. Apresenta-se uma síntese dos sistemas de codificação perceptual encontrados na literatura, e identificam-se, comparam-se e relacionam-se as técnicas usadas em cada um. Pela sua relevância para a codificação de áudio, faz-se um estudo mais aprofundado das transformadas e bancos de filtros multifrequência, da quantização, dos códigos reversíveis e dos modelos matemáticos da percepção auditiva. Propõe-se um sistema de codificação composto por um banco de filtros multi-resolução, quantizadores logarítmicos adaptativos, codificação aritmética, e um modelo psicoacústico explícito para adaptar os quantizadores de acordo com critérios perceptuais. Ao contrário de outros codificadores perceptuais, o sistema proposto é retroadaptativo, isto é: a adaptação depende exclusivamente de amostras já quantizadas, e não do sinal original. Discutimos as vantagens do uso de retroadaptação e mostramos que esta técnica pode ser aplicada com sucesso à codificação perceptual.
The problem of digital coding of high quality audio signals is analised, and the principles of perceptual coding are identified as the most satisfactory approach. We present a synthesis of the perceptual coding systems found in the literature, and we identify, compare and relate the techniques used in each one. Given their relevance for audio coding, transforms and multifrequency filter banks as well as quantization, lossless coding, and mathematical models of auditory perception are subject to a more thorough study. We propose a coding system consisting of a multirate filter bank, logarithmic quantizers, arithmetic entropy coding and an explicit psychoacoustic model to adapt the quantization according to perceptual considerations. Unlike other perceptual coders, the proposed system is backward-adaptive, that is: adaptation depends exclusively on already quantized samples, not on the original signal. We discuss the advantages of backward-adaptation and show that it can be successfully applied to perceptual coding.
APA, Harvard, Vancouver, ISO, and other styles
7

Cubas, Heiner Grover Alarcón. "Projeto de um modulador sigma-delta de baixo consumo para sinais de áudio." Universidade de São Paulo, 2013. http://www.teses.usp.br/teses/disponiveis/18/18155/tde-01072013-104920/.

Full text
Abstract:
Este trabalho descreve o projeto de um modulador Analógico-Digital (A/D) Sigma-Delta de 16 bits (98 dB de SNR) de baixo consumo em tecnologia CMOS para a aquisição de sinais de áudio. Para projetar o modulador foi utilizada a metodologia top down, a qual consiste em projetar desde o nível de sistema até os blocos básicos em nível de transistores. O sistema foi analizado e projetado utilizando equacões e modelos comportamentais para obter as especificações de cada bloco do modulador. Considerando um baixo consumo de potência foi escolhida a topologia CIFF (do inglês Chain of Integrator with FeedForward) de terceira ordem e quatro bits implementado com capacitores chaveados. O modulador projetado é composto por três integradores chaveados, um somador analógico, um weigthed DAC e um quantizador de quatro bits. A técnica de Chopper é incluida no modulador para diminuir o ruído Flicker na entrada do modulador. Os blocos de maior consumo dentro do modulador são as OTAs. Por esta razão eles são projetados utilizando a metodologia gm/ID reduzindo assim o consumo de potência. O projeto foi realizado na tecnologia IBM 0,18 \'mü\'m sendo utilizado o simulador spectre do Cadence. O modulador Sigma-Delta atinge um SNR de 98 dB para uma banda de 20 kHz e um consumo de potência de 2,4 mW para uma fonte de alimentação de 1,8 V.
This work describes the design of a 16 bits low power Sigma-Delta modulator (98 dB SNR) in a CMOS technology for the acquisition of audio signals. To design the modulator it was used the top-down methodology, which consists on the design from system level to the transistor-level basic blocks. The system was analyzed and designed using behavioral models and equations to obtain the specifications of each block of the modulator. Considering a low power consumption it was chosen a third-order four bits CIFF topology (Chain Integrator with feedforward) implemented with switched capacitors. The modulator is composed by three integrators, one analog adder, one weigthed DAC and one four bit quantizer. The Chopper technique is included in the modulator to reduce the Flicker noise at the input of the modulator. The blocks of higher consumption within the modulator are the OTAs. Hence, they was designed using the methodology gm/ID to reduce power consumption. It was designed on the 0.18 \'mü\'m IBM technology and using the Cadence Spectre simulator. The Sigma-Delta modulator achieves a SNR of 98 dB for a bandwidth of 20 kHz and a power consumption of 2.4 mW with a 1.8 V power supply.
APA, Harvard, Vancouver, ISO, and other styles
8

CASIERRA, Jinnett Pamela Carrion. "Implementação de um sistema esteganográfico para inserção de textos em sinais de áudio." Universidade Federal de Pernambuco, 2009. https://repositorio.ufpe.br/handle/123456789/5409.

Full text
Abstract:
Made available in DSpace on 2014-06-12T17:39:24Z (GMT). No. of bitstreams: 2 arquivo6866_1.pdf: 1749281 bytes, checksum: 54338dde5012e86da31feb93e4e2892e (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009
A arte de ocultar uma mensagem dentro de outro objeto é conhecida como Esteganografia. Detalham-se técnicas convencionais para ocultação de mensagens e propõese uma nova abordagem. Este novo método de esteganografia em dois passos combina a cifragem do texto-pleno através de um criptossistema padrão, seguido pela imersão dos dados cifrados no arquivo de áudio. O trabalho enfoca-se na inserção de textos curtos em arquivos com formato wav a entrada dos dados é realizada nas componentes que resultam da transformação do sinal mediante as transformadas de wavelet. O objetivo é introduzir dados de forma quase transparente, de tal maneira que a detecção por terceiros seja pouco provável, como também para garantir a recuperação praticamente inalterável dos dados. O áudio é decomposto em doze níveis mediante a escolha de uma wavelet-mãe, os dados são codificados e ocultados nos diferentes níveis segundo o critério do usuário. Para um melhor espalhamento dos dados em cada nível são utilizadas senhas alfanuméricas de tamanho proporcional à quantidade de caracteres ingressados em cada um dos níveis. A implementação computacional foi realizada no Matlab® e simulações com arquivos de áudio de diferentes tamanhos foram realizadas. Mudanças nos arquivos de áudio após a inserção dos dados foram medidas. Baseadas no esquema da Esteganografia, aplicações comerciais podem ser desenvolvidas para garantir a autenticidade dos arquivos, assim como a proteção de direitos autorais em arquivos digitais
APA, Harvard, Vancouver, ISO, and other styles
9

Setubal, Phabio Junckes. "Classificação de sinais de áudio com ênfase na segmentação do canto dentro de sinais de música baseada em análise harmônica." Florianópolis, SC, 2004. http://repositorio.ufsc.br/xmlui/handle/123456789/86867.

Full text
Abstract:
Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Engenharia Elétrica
Made available in DSpace on 2012-10-21T11:30:11Z (GMT). No. of bitstreams: 1 212259.pdf: 2419766 bytes, checksum: 59a3b2dc3c314557116536d0f0440000 (MD5)
A área de pesquisa conhecida como classificação de sinais de áudio busca realizar a identificação automática das classes de áudio (fala, música, ruído, canto, dentre outras). Inicialmente, o objetivo deste trabalho é apresentar o estado-da-arte nessa área de pesquisa e discutir a sua estrutura padrão de diagrama em blocos. Atenção especial é dada à etapa de extração de parâmetros. Posteriormente, o objetivo do trabalho adquire caráter de inovação científica, concentrando-se no tema específico de segmentação do canto dentro de sinais de música. A abordagem proposta baseia-se na diferença entre o conteúdo harmônico dos sinais de canto e de instrumentos musicais, observadas através de análise visual do espectrograma. Os resultados obtidos são comparados com os de outra técnica proposta na literatura, usando o mesmo banco de dados. Mesmo considerando um método de medida de desempenho mais criterioso, a taxa de acerto obtida situa-se na mesma faixa da técnica usada como comparação, em torno de 80%. Como vantagem, a abordagem aqui proposta apresenta menor complexidade computacional. Adicionalmente, permite discriminar os diferentes tipos de erro envolvidos no processo de segmentação, sugerindo alternativas para reduzi-los, quando possível. Finalmente, a partir do algoritmo proposto, é realizado um primeiro experimento com o objetivo de separar os sinais de canto de instrumentos musicais dentro de um sinal de música. Os resultados subjetivos obtidos indicam que o processo de separação proposto opera satisfatoriamente.
APA, Harvard, Vancouver, ISO, and other styles
10

BIANCA, F. G. "Avaliação de Técnicas Espectrais Aplicadas à Remoção de Ruído em Sinais de Áudio Musical." Universidade Federal do Espírito Santo, 2009. http://repositorio.ufes.br/handle/10/4076.

Full text
Abstract:
Made available in DSpace on 2016-08-29T15:32:31Z (GMT). No. of bitstreams: 1 tese_2765_DissertacaoMestradoFlavioGiraldeliBianca.pdf: 3420519 bytes, checksum: 19a61f125c0183ac951b95c5d99b66b2 (MD5) Previous issue date: 2009-12-18
O objetivo deste trabalho é avaliar técnicas de melhoria de um sinal de áudio corrompido por ruídos de natureza não estacionária. Serão estudadas técnicas baseadas em transformadas wavelets ortogonais e não ortogonais, avaliando-se o fenômeno da blocagem e regularidade da transformação e seus efeitos em sinais, comparando-se também o custo computacional de cada transformação. A abordagem por wavelets será comparada com uma abordagem baseada em modelos de alta ordem estatística, a fim de se discutir a melhor alternativa no que tange a custos e desempenho.
APA, Harvard, Vancouver, ISO, and other styles
11

Rodrigues, Gabriela Meira de Moura. "Sistema para processamento de áudio em aparelhos auditivos baseado em filtros analógicos utilizando a decomposição Wavelet." reponame:Repositório Institucional da UnB, 2014. http://repositorio.unb.br/handle/10482/16141.

Full text
Abstract:
Dissertação (mestrado)—Universidade de Brasília, Faculdade Gama, Programa de Pós-Graduação em Engenharia Biomédica, 2014.
Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2014-08-20T15:41:30Z No. of bitstreams: 1 2014_GabrielaMeiraMouraRodrigues.pdf: 2041493 bytes, checksum: 180ce25c6e4d76ca85efcf259d58dcff (MD5)
Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-08-22T12:34:44Z (GMT) No. of bitstreams: 1 2014_GabrielaMeiraMouraRodrigues.pdf: 2041493 bytes, checksum: 180ce25c6e4d76ca85efcf259d58dcff (MD5)
Made available in DSpace on 2014-08-22T12:34:45Z (GMT). No. of bitstreams: 1 2014_GabrielaMeiraMouraRodrigues.pdf: 2041493 bytes, checksum: 180ce25c6e4d76ca85efcf259d58dcff (MD5)
A utilização de filtros analógicos da Transformada Wavelet (WT) em um sistema de tratamento de áudio para aparelho auditivo possui vantagens como melhor relação sinal-ruído (SNR), comparadas com outras técnicas de processamento de sinais utilizadas neste tipo de sistema. A relação sinal-ruído (SNR) é maior com esse tipo de tratamento, obtendo ainda melhor resultado ao selecionar a Gaussiana de ordem primeira como filtro da Wavelet. Além disso, devido ao fato de o sistema apresentado ser analógico não há necessidade de implementação de conversores Analógico-Digital (A/D) e Digital-Analógico (D/A). Foram realizados vários testes por diagramas de blocos, utilizando o programa computacional Simulink do MATLAB, com filtros passa-banda, passa-baixa e com todos os filtros da transformada Wavelet, confirmando o bom funcionamento da gaussiana de ordem primeira como filtro da Wavelet. Por fim, foram explanadas as diferenças entre os tipos e intensidades das deficiências auditivas, selecionando o grau moderado (entre 40 e 69 dB Na) para o tratamento com o presente sistema levando em consideração o limiar de dor dependente da frequência, ou seja, o limite máximo suportável pela orelha humana podendo ocorrer danos à estrutura. O som acrescido de ruído foi tratado pelas gaussianas 8,16,32 e 64 e em seguida foi submetido a um amplificador de controle de ganho automático (AGC). Através dos resultados obtidos em simulações elétricas, foi atingida uma melhor Relação Sinal Ruído (SNR), e assim, melhorando a qualidade sonora do sinal processado. ______________________________________________________________________________ ABSTRACT
The use of analog filters for Wavelet Transformer in a system for processing audio for hearing aid has advantages, for example, the better Signal Noise Ratio(SNR), comparing to others techniques of signal processing used in this type of system. The signal to noise ratio (SNR) is higher with this type of treatment, still getting better results when treated selecting Gaussian first order as a filter of Wavelet decomposition. Furthermore, the fact that the system is analog, there is no need to implement analog to digital and digital to analog converters. In this work several tests on system level where performed. Using the computation programmer Simulink of MatLab with band-pass filters, low-pass, and all filters of the Wavelet Transform, confirm the suitability of the Gaussian wavelet filter of the first order. The differences between the types and intensities of hearing loss were explained, choosing moderate (between 40 and 69 dB Na) for treatment with this system taking into account the threshold of pain frequency dependent, that is, supportively maximum limit damage to the human ear can occur structure. The sound with a Gaussian noise was addressed by 8, 16, 32 and 64 wavelet scales, and then, was applied to an automatic gain control (AGC) circuit. From the simulated results, we obtained better Signal Noise Ratio (SNR), and thus, improving the sound quality of the processed signal.
APA, Harvard, Vancouver, ISO, and other styles
12

Gomes, Diego Augusto Rodrigues. "Criação e manipulação de áudio 3D em tempo real utilizando unidades de processamento gráfico (GPU)." reponame:Repositório Institucional da UnB, 2012. http://repositorio.unb.br/handle/10482/11199.

Full text
Abstract:
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2012.
Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2012-09-17T12:27:02Z No. of bitstreams: 1 2012_DiegoAugustoRodrigoGomes.pdf: 3113948 bytes, checksum: ddbeed3645907de67f488ff7848877d5 (MD5)
Approved for entry into archive by Luanna Maia(luanna@bce.unb.br) on 2012-09-18T11:02:03Z (GMT) No. of bitstreams: 1 2012_DiegoAugustoRodrigoGomes.pdf: 3113948 bytes, checksum: ddbeed3645907de67f488ff7848877d5 (MD5)
Made available in DSpace on 2012-09-18T11:02:03Z (GMT). No. of bitstreams: 1 2012_DiegoAugustoRodrigoGomes.pdf: 3113948 bytes, checksum: ddbeed3645907de67f488ff7848877d5 (MD5)
O uso crescente de unidades de processamento gráfico, Graphics Processing Units (GPUs), no desenvolvimento de aplicações de propósito geral nos permite criar softwares e sistemas capazes de processar grandes volumes de dados paralelamente. Isso faz com que aplicações, que antes imagin´avamos inviáveis no sentido de sua utilização, possam ser construídas. No contexto de aplicações que demandam alto poder de processamento, encontra-se o processo de criação de áudio tridimensional em tempo real e os sistemas de auralização. Tais sistemas têm o objetivo de simular virtualmente o posicionamento de fontes sonoras por meio de funções matem áticas responsáveis por aplicar os parâmetros de direcionalidade em um bloco de sinal de áudio, transmitindo-nos a sensação de posicionamento no campo sonoro ao nosso redor. Essa capacidade demanda a utilização de procedimentos de interpolação capazes de estimar as funções matemáticas de posi- ções pelas quais tais valores não são conhecidos, a partir de funções vizinhas previamente conhecidas. A possibilidade de otimização desses métodos de interpolação e consequentemente de sistemas que se utilizam destes m´etodos, abre caminhos para novas experiências sonoras no campo do entretenimento e da realidade virtual. Para tornar essa otimização possível, experimenta-se o uso de dispositivos eficientes e acessíveis capazes de processar um volume massivo de dados em paralelo. Este trabalho mantém o foco no desenvolvimento de uma biblioteca capaz de realizar a interpolação de HRTFs, as funções de transferência relacionadas à cabeça responsáveis por transmitir a percepção de direcionalidade de uma fonte sonora, e a síntese de áudio tridimensional em tempo real por meio da utilização de hardware gráfico para o processamento massivo de dados em paralelo e tomando como base o algoritmo de interpolação no domínio da transformada wavelet desenvolvido em trabalhos anteriores. Além disso, com a otimização desse método de interpolação, apresenta-se um programa capaz de sintetizar em tempo real o áudio resultante da aplicação dessas funções a partir de dados referentes ao posicionamento espacial da fonte sonora fornecidos por um usuário. Também como parte do escopo desse trabalho, a implementação com técnicas de processamento paralelo com base no uso de múltiplas threads é comparada com a implementação utilizando GPU. ______________________________________________________________________________ ABSTRACT
The increasing use of graphics processing units (GPUs) in the development of general- purpose applications allows us to develop software and systems capable of processing large amount of data in parallel. This means that applications once thought impractical, in the sense of its use, can be constructed with the use of these powerful and emerging processing units. In the context of applications that are heavy in terms of processing, there is the process of creating three-dimensional audio in real time and the auralization systems. Such systems are designed to virtually simulate the placement of sound sources by means of mathematical functions responsible for applying the parameters of directionality in a block of audio signal, giving us the sense of position in the sound field around the listener. This capability requires the use of interpolation procedures able to estimate the mathematical functions of positions, for which such values are not known, from neighboring functions previously known. The possibility of optimization of these methods of interpolation, and as a consequence the systems that use these methods, brings new sound experiences in the field of entertainment and virtual reality. To make this optimization possible, we experiment to use efficient and affordable devices capable of handling a massive volume of data in parallel. This work aims to focus on the development of a library to interpolate the HRTFs, the mathematical functions responsible for transmitting the perception of directionality of a sound source, and to synthesize 3D audio in real-time by using graphic hardware for massive and parallel data processing based on the interpolation algorithm in wavelet domain developed in previous works. In addition, with the optimization of this method of interpolation, as a result of using graphics processing units, a program was created to synthesize real-time audio resulting from the application of these transfer functions from data on the spatial positioning of the source sound provided by a user. Also as part of the scope of this work, we compare the implementation using multiple threads techniques with the implementation using GPU.
APA, Harvard, Vancouver, ISO, and other styles
13

Sampaio, Renato Coral. "Coprojeto de um decodificador de áudio AAC-LC em FPGA." reponame:Repositório Institucional da UnB, 2013. http://repositorio.unb.br/handle/10482/15175.

Full text
Abstract:
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2013.
Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-01-21T10:04:59Z No. of bitstreams: 1 2013_RenatoCoralSampaio.pdf: 3776105 bytes, checksum: ec34db0ab9261723cadcfe2fd5f9432e (MD5)
Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-02-14T11:52:25Z (GMT) No. of bitstreams: 1 2013_RenatoCoralSampaio.pdf: 3776105 bytes, checksum: ec34db0ab9261723cadcfe2fd5f9432e (MD5)
Made available in DSpace on 2014-02-14T11:52:25Z (GMT). No. of bitstreams: 1 2013_RenatoCoralSampaio.pdf: 3776105 bytes, checksum: ec34db0ab9261723cadcfe2fd5f9432e (MD5)
A Codificação de áudio está presente hoje nos mais diversos aparelhos eletrônicos desde o rádio, a televisão, o computador, os tocadores de música portáteis e nos celulares. Em 2007, o governo do Brasil definiu o padrão do Sistema Brasileiro de TV Digital (SBTVD) que adotou o AAC Advanced Audio Coding para codificação de áudio. Neste trabalho, utilizamos a abordagem de coprojeto combinando software e hardware para implementar uma solução de alto desempenho e baixo consumo de energia em um FPGA, capaz de decodificar até 6 canais de áudio em tempo real. Apresentamos os detalhes da solução bem como os testes de desempenho e qualidade. Por fim, apresentamos os resultados de utilização de hardware e performance juntamente com uma comparação com as demais soluções encontradas na literatura. _______________________________________________________________________________________ ABSTRACT
Audio Coding is present today in many electronic devices. It can be found in radio, tv, computers, portable audio players and mobile phones. In 2007 the Brazilian Government defined the brazilian Digital TV System standard (SBTVD) and adopted the AAC - Advanced Audio Coding as the audio codec. In this work we use the co-design of hardware and software approach to implement a high performance and low energy solution on an FPGA, able to decode up to 6 channels of audio in real-time. The solution architecture and details are presented along with performance and quality tests. Finally, hardware usage and performance results are presented and compared to other solutions found in literature.
APA, Harvard, Vancouver, ISO, and other styles
14

Braga, Vinicius José Andrade. "Desenvolvimento de um decodificador de áudio embarcado para o ISDB-Tb." [s.n.], 2011. http://repositorio.unicamp.br/jspui/handle/REPOSIP/259483.

Full text
Abstract:
Orientador: Luís Geraldo Pedroso Meloni
Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
Made available in DSpace on 2018-08-19T10:05:51Z (GMT). No. of bitstreams: 1 Braga_ViniciusJoseAndrade_M.pdf: 1600550 bytes, checksum: 9a8740df6ec6525126cc7f55fca3b881 (MD5) Previous issue date: 2011
Resumo: Este trabalho descreve o desenvolvimento de um decodificador de áudio embarcado em um Digital Signal Processor (DSP)de acordo com o padrão High Efficiency AAC version 2(HE-AAC v2) do MPEG-4. Essa atividade é parte integrante do projeto Rede H.264 que tem por objetivo o desenvolvimento de tecnologias nacionais para ser integrado ao padrão brasileiro de TV digital, o Integrated Services Digital Broadcasting-Terrestrial Brazilian version(ISDB-Tb). Também apresenta um estudo sobre diversas técnicas de otimização para processamento em tempo real na busca de se obter o melhor desempenho da arquitetura utilizada. Como resultado final deste trabalho, chegou-se a um decodificador embarcado em tempo real, otimizado com as técnicas descritas e compatível com o ISDB-TB
Abstract: This work describes the development of an embedded audio decoder in a Digital Signal Processor (DSP) according to the standard High Efficiency AAC v2 (HE-AAC v2) of MPEG-4. This activity is part of the Rede H.264 project which has objective the development of national technologies to be integrated in the Brazilian Digital TV standard, the Integrated Services Digital Broadcasting-Terrestrial Brazilian version (ISDB-Tb). It also presents a study of various optimization techniques for real-time processing in the quest to get the best performance of the architecture used. As final result of this work a real-time embedded decoder was achieved, optimized with the techniques described and compatible with the ISDB-Tb
Mestrado
Telecomunicações e Telemática
Mestre em Engenharia Elétrica
APA, Harvard, Vancouver, ISO, and other styles
15

Rijo, Sara Marina Albino. "Técnicas de deep learning para detecção de eventos em áudio: treino de modelos acústicos a partir de sinais puros." Master's thesis, Universidade de Évora, 2018. http://hdl.handle.net/10174/22275.

Full text
Abstract:
O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; O vídeo é atualmente um dos recursos mais utilizados e em constante expansão no mundo digital, sendo que em 2019 será responsável por 80% do tráfego mundial de Internet. Neste panorama, surgiu a problemática da incapacidade humana e (até agora) tecnológica para descrever, interpretar e interagir com este elevado volume de dados multimédia. Assim, têm sido desenvolvidos esforços para encontrar formas de automatizar e melhorar o processo de análise de conteúdo de vídeo e consequentemente melhorar a eiciência, usabilidade e acessibilidade dos vídeos armazenados por milhões de pessoas em todo o mundo. Este processo pode focar-se na análise do som e imagem em simultâneo ou independentemente. Esta dissertação descreve a concretização de um projecto de análise de som, que consistiu no desenvolvimento e implementação de um sistema de classiicação de áudio utilizando uma abordagem baseada na utilização da waveform do som e redes neuronais, excluindo a convencional fase de extração de características habitualmente utilizada em aprendizagem máquina. Esta metodologia permite ultrapassar as limitações ao nível da ineicência temporal de abordagens típicamente utilizadas. Sendo o áudio um componente de relevo no vídeo, torna-se assim possível detectar e distinguir elementos de destaque, como por exemplo as partes mais cómicas, faladas ou musicais. Elaborou-se também um conjunto de dados de sons exclusivamente para o projecto, tendo em vista colmatar a utilização de dados de ‘laboratório’, isto é, obtidos em ambientes controlados, que induzem a falsos positivos e não representam a estocacidade do som no ‘mundo real’. Os resultados obtidos foram bastante satisfatórios, tanto pela rapidez do processo como pela sua precisão, que atingiu taxas de reconhecimento dos sons na ordem dos 90%; Abstract Deep Learning for Sound Event Detection Training acoustic models on waveforms Video is currently one of the most used media resources, it’s use is expanding worldwide and predictions point that by 2019 video will be responsible for 80% of the world’s internet traic. With this in mind the problem of the impossibility for humans and technology (so far) to describe, interpret and interact with this amount of multimedia data rouse. Thus eforts have been made to ind ways to automate and improve the video content analysis process and consequently better the eiciency, usability and accessibility of video stored by millions of people arround the world. This process can focus on the simultaneous analysis of image and sound or independently. This dissertation describes a project that consisted in the development and implementation of an audio classiication system using an emerging approach based on the use of the sound waveform and neural networks, excluding the convetional feature extraction phase normally used in machine learning. As the audio is an important component of video, this system allows detection of important elements like the funnyest parts, where is speech and where is music. The results were very satisfactory, both in terms of processing speed and precision, that reached classiication scores arround 90%.
APA, Harvard, Vancouver, ISO, and other styles
16

Ynoguti, Carlos Alberto. "Síntese de sons musicais baseada na transformada de Karhunen-Loève." Universidade de São Paulo, 1995. http://www.teses.usp.br/teses/disponiveis/18/18133/tde-25012018-113143/.

Full text
Abstract:
Tradicionalmente, a técnica de síntese aditiva com funções base de Fourier é a que tem apresentado melhores resultados no que diz respeito à qualidade dos sons gerados. Entretanto, a carga computacional imposta por esta técnica é extremamente alta, dificultando assim a sua implementação em tempo real. Substituindo as funções de Fourier por outras mais complexas, derivadas das técnicas estatísticas de Karhunen-Loève, consegue-se uma redução na quantidade de operações necessárias. Neste trabalho foi estudado e implementado em microcomputador um modelo de síntese aditiva baseada em análise utilizando a transformada de Karhunen-Loève.
Traditionally, the Fourier based aditive synthesis is the method that have achieved the best results concerning to the quality of the generated sounds. However, the computacional load imposed by this technique is extremely high, difliculting its real time implementation. Substituting the Fourier functions by another set of more complex functions, derived from the Karhunen-Loève statistical techniques, one achieves a reduction on the amount of the necessary operations so as to viabilize its real time implementation.
APA, Harvard, Vancouver, ISO, and other styles
17

Chanquini, Júlia Jacobsen Dornelles. "Adaptação de codificador de áudio MPEG-4 de acordo com a norma do sistema brasileiro de televisão digital." [s.n.], 2012. http://repositorio.unicamp.br/jspui/handle/REPOSIP/259482.

Full text
Abstract:
Orientador: Luís Geraldo Pedroso Meloni
Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
Made available in DSpace on 2018-08-21T21:07:48Z (GMT). No. of bitstreams: 1 Chanquini_JuliaJacobsenDornelles_M.pdf: 2607975 bytes, checksum: f9b57a1325c9977a5bfd0cdb69a56661 (MD5) Previous issue date: 2012
Resumo: Este trabalho apresenta a adequação de um codificador de áudio padrão MPEG-4 AAC para aderência à norma brasileira do SBTVD. Também apresenta um estudo dos conceitos envolvidos em codificadores de áudio perceptuais com enfoque no codificador MPEG-4 AAC e também inclui a parte de multiplexação e sincronia do MPEG-4. Para o desenvolvimento do projeto foram estudados alguns códigos abertos de codificadores AAC: FAAD, 3GPP e o código de referência do padrão MPEG-4, especialmente a parte referente ao LATM/LOAS. O decodificador de áudio padrão MPEG-4 AAC que foi modificado para suportar a camada LATM/ LOAS foi o FAAD. Foi calculado o tempo adicional que o decodificador modificado leva para decodificar o áudio com a camada LATM/LOAS, sem ser notado um aumento significativo que não permite a decodificação em tempo real do áudio
Abstract: This work presents an adaptation of a standard MPEG-4 AAC audio coder to conform to the Brazilian digital TV standard SBTVD. It also presents a study of the concepts involved in perceptual audio coders focusing on MPEG-4 AAC and also including the multiplexing and synchronization part of the MPEG-4 standard. To develop this project, open source AAC coders were studied: FAAD, 3GPP and the MPEG-4 reference software code specially the part concerning LATM/LOAS. The AAC audio decoder which was modified to support the LATM / LOAS layer was FAAD. The additional time that the modified decoder needs to decode a sample audio with LATM / LOAS was calculated, and it did not introduce a large enough delay that would restrict real time audio decoding
Mestrado
Telecomunicações e Telemática
Mestra em Engenharia Elétrica
APA, Harvard, Vancouver, ISO, and other styles
18

Thomaz, Leandro Ferrari. "Aplicação à música de um sistema de espacialização sonora baseado em Ambisonics." Universidade de São Paulo, 2007. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-12072007-155603/.

Full text
Abstract:
O trabalho envolve a pesquisa de técnicas para espacialização sonora musical e o desenvolvimento de um sistema de espacialização sonora sobre uma arquitetura de áudio multicanal aberta (AUDIENCE) para a auralização imersiva. Utilizando-se a técnica Ambisonics, o sistema construído permite a recriação de um campo sonoro tridimensional. O sistema reproduz virtualmente peças musicais espacializadas, por meio de um arranjo de alto-falantes em torno do ouvinte, onde as fontes sonoras podem assumir posições incomuns e movimentar-se no espaço. Através dos resultados dos experimentos musicais realizados com o sistema, chega-se a conclusão de que o sistema pode ser utilizado por compositores, regentes e produtores para a tarefa de espacialização musical.
This work involves the research of techniques for musical spatialization, and the development of a spatialization system, based on an open multichannel audio architecture (AUDIENCE) for immersive auralization. The constructed system uses the Ambisonics technique, which allows the recreation of a three-dimensional sound field. The system reproduces spatial music through an arrangement of loudspeakers around the listener where sound sources can assume some uncommon positions, and also be put into motion. From the results of experiments with a musical piece it follows that the system can be used by composers, conductors, and producers to the musical spatialization task.
APA, Harvard, Vancouver, ISO, and other styles
19

Cordeiro, Júnior Maurício de Miranda. "Projeto de Banco de Filtros Digitais por Janelas Kaiser para Identificação de Notas e Acordes Usando Imagens Binarizadas por Limiar de Otsu." Universidade Federal de Pernambuco, 2011. https://repositorio.ufpe.br/handle/123456789/11184.

Full text
Abstract:
Submitted by Eduarda Figueiredo (eduarda.ffigueiredo@ufpe.br) on 2015-03-06T15:24:45Z No. of bitstreams: 2 Dissertacao_Cordeiro Jr,M.M.pdf: 3941475 bytes, checksum: 87847586f1b95455343538f32a029b91 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Made available in DSpace on 2015-03-06T15:24:45Z (GMT). No. of bitstreams: 2 Dissertacao_Cordeiro Jr,M.M.pdf: 3941475 bytes, checksum: 87847586f1b95455343538f32a029b91 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2011-09-02
CAPES
Nesta dissertação é proposto um novo procedimento para identificação de notas e acordes em registros de piano. O método apresentado utiliza técnicas de processamento de sinais de áudio e de imagem e pode ser dividido em cinco etapas, a saber: decomposição do sinal de áudio em componentes de energia utilizando bancos de filtros digitais por janelas Kaiser; conversão matriz-imagem seguida de binarização por limiar de Otsu; ajuste a partir de técnicas de conectividade entre os pixels; sobreposição temporal e composição dos resultados. O desafio consiste em conceber um aplicativo capaz de dispor de forma amigável o conteúdo musical (notas e acordes) contido num arquivo de áudio gravado via sintetizador ou pelo próprio instrumento a partir da implementação de técnicas especificas que usam processamento de sinais de áudio e imagem. A implementação é realizada a partir de diversos algoritmos desenvolvidos no Matlab® . Testes de funcionamento usando registros de piano (gravados via intetizador) foram realizados, obtendo taxas de acerto superiores a 88 %.
APA, Harvard, Vancouver, ISO, and other styles
20

Soria, Sergio Gilberto Rodriguez. "Estudos sobre personalização da função de transferência relativa à cabeça em sistemas biaurais de reprodução acústica virtual." Universidade de São Paulo, 2006. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-21032006-144134/.

Full text
Abstract:
Este trabalho apresenta diversas propostas associadas ao uso ótimo de funções de transferência relativas à cabeça (HRTFs) em sistemas de reprodução acústica virtual por fones de ouvido. Estas propostas permitem personalizar a HRTF a indivíduos particulares, tomando como base uma combinação da modelagem estrutural e morfológica de HRTFs. Dentro do contexto da modelagem estrutural, o presente trabalho se concentrou no estudo da contribuição do pinna à HRTF. O pinna é a estrutura anatômica responsável pela percepção de elevação. Assim, o primeiro passo foi extrair um conjunto de funções de transferência relativas ao pinna (PRTFs) das HRTFs de uma base de dados. Para tanto, foram usadas diversas técnicas como análise preditiva linear para rastrear as ressonâncias, janelamento para eliminar a influência do torso, funções de autocorrelação e de atraso de grupo para salientar as antirressonâncias, e outros algoritmos para combinar ressonâncias e antirressonâncias em apenas uma magnitude espectral. Usando essa nova base de dados de PRTFs e parâmetros antropométricos propostos mais outros registrados na base de dados, um espaço vetorial correspondente à antropometria do pinna foi mapeado linearmente em um espaço vetorial correspondente às características espectrais da PRTF, calculando-se assim várias transformações lineares para estimação de novas PRTFs fora da base de dados. A estimação atingiu 66% de reconstrução no grupo de treino. O trabalho está orientado à exploração das características espectrais importantes na percepção de elevação, portanto, está limitado ao plano médio do hemisfério frontal, onde não existem diferenças interaurais significativas nem efeitos difrativos da cabeça. Finalmente é proposto um sistema de testes de localização de fonte sonora para validar o modelo.
This work presents several proposals associated with the optimal use of head-related transfer functions (HRTF) in virtual auditory spaces presented via headphones. These proposals lead to personalization of the HRTF to particular individuals, using a combination of the structural and morphological modeling techniques. In the context of structural modeling, this work focuses on modeling the contribution of the pinna to the HRTF. The pinna is the anatomical structure responsible for vertical sound localization. Thus, the first step was to extract a set of pinna-related transfer functions (PRTFs) from HRTFs published in a database. This was accomplished using several techniques like linear prediction analysis for tracking the resonances, windowing for eliminating the torso influence, autocorrelation and group delay functions for emphasizing the notches and other algorithms for combining resonances and notches in only one magnitude response. Using this novel database of PRTFs and a set of proposed anthropometric parameters plus some others registered in the database, a vector space corresponding to pinna anthropometry is linearly mapped into a vector space corresponding to spectral features of the PRTF, being calculated, in this way, several linear transformations for estimation of new PRTFs, outside the database. The estimation attains 66% of reconstruction in the training group. The work focuses on the exploration of spectral characteristics important for elevation perception, therefore, it is limited to the median plane where there are no meaningful interaural differences nor head diffraction effects. Finally, a system for sound localization tests is proposed in order to validate the model.
APA, Harvard, Vancouver, ISO, and other styles
21

Veras, Ricardo da Costa. "Utilização de métodos de machine learning para identificação de instrumentos musicais de sopro pelo timbre." reponame:Repositório Institucional da UFABC, 2018.

Find full text
Abstract:
Orientador: Prof. Dr. Ricardo Suyama
Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2018.
De forma geral a Classificação de Padrões voltada a Processamento de Sinais vem sendo estudada e utilizada para a interpretação de informações diversas, que se manifestam em forma de imagens, áudios, dados geofísicos, impulsos elétricos, entre outros. Neste trabalho são estudadas técnicas de Machine Learning aplicadas ao problema de identificação de instrumentos musicais, buscando obter um sistema automático de reconhecimento de timbres. Essas técnicas foram utilizadas especificamente com cinco instrumentos da categoria de Sopro de Madeira (o Clarinete, o Fagote, a Flauta, o Oboé e o Sax). As técnicas utilizadas foram o kNN (com k = 3) e o SVM (numa configuração não linear), assim como foram estudadas algumas características (features) dos áudios, tais como o MFCC (do inglês Mel-Frequency Cepstral Coefficients), o ZCR (do inglês Zero Crossing Rate), a entropia, entre outros, sendo fonte de dados para os processos de treinamento e de teste. Procurou-se estudar instrumentos nos quais se observa uma aproximação nos timbres, e com isso verificar como é o comportamento de um sistema classificador nessas condições específicas. Observou-se também o comportamento dessas técnicas com áudios desconhecidos do treinamento, assim como com trechos em que há uma mistura de elementos (gerando interferências para cada modelo classificador) que poderiam desviar os resultados, ou com misturas de elementos que fazem parte das classes observadas, e que se somam num mesmo áudio. Os resultados indicam que as características selecionadas possuem informações relevantes a respeito do timbre de cada um dos instrumentos avaliados (como observou-se em relação aos solos), embora a acurácia obtida para alguns dos instrumentos tenha sido abaixo do esperado (como observou-se em relação aos duetos).
In general, Pattern Classification for Signal Processing has been studied and used for the interpretation of several information, which are manifested in many ways, like: images, audios, geophysical data, electrical impulses, among others. In this project we study techniques of Machine Learning applied to the problem of identification of musical instruments, aiming to obtain an automatic system of timbres recognition. These techniques were used specifically with five instruments of Woodwind category (Clarinet, Bassoon, Flute, Oboe and Sax). The techniques used were the kNN (with k = 3) and the SVM (in a non-linear configuration), as well as some audio features, such as MFCC (Mel-Frequency Cepstral Coefficients), ZCR (Zero Crossing Rate), entropy, among others, used as data source for the training and testing processes. We tried to study instruments in which an approximation in the timbres is observed, and to verify in this case how is the behavior of a classifier system in these specific conditions. It was also observed the behavior of these techniques with audios unknown to the training, as well as with sections in which there is a mixture of elements (generating interferences for each classifier model) that could deviate the results, or with mixtures of elements that are part of the observed classes, and added in a same audio. The results indicate that the selected characteristics have relevant information regarding the timbre of each one of evaluated instruments (as observed on the solos results), although the accuracy obtained for some of the instruments was lower than expected (as observed on the duets results).
APA, Harvard, Vancouver, ISO, and other styles
22

Almeida, Diogo Miguel Moura dos Santos. "Sistema de realidade aumentada áudio." Master's thesis, Universidade de Aveiro, 2011. http://hdl.handle.net/10773/8761.

Full text
Abstract:
Mestrado em Engenharia Electrónica e Telecomunicações
Considerando aplicações de realidade aumentada áudio, desenvolveu-se uma versão de demonstração de um sistema de auralização integrando detecção automática da posição e orientação da cabeça do utilizador. A posição é determinada através do cálculo das distâncias entre um emissor de ultra-sons transportado pelo utilizador e receptores fixos distribuídos na sala. A orientação da cabeça é obtida através de um sistema comercial de orientação inercial a 3 eixos (InertiaCube3). Para a auralização foram utilizadas bases de dados HRTF do MIT. O programa de controlo foi escrito em MATLAB. O sistema é gerido a partir de um computador, utilizando uma placa Data Translation como interface. Com este sistema, o utilizador pode caminhar livremente na sala e localizar a origem de fontes sonoras virtuais em tempo real. No final do trabalho, foram efectuados testes de avaliação objectiva e subjectiva. Nos primeiros, foram realizadas diversas medidas de maneira a avaliar a precisão dos sistemas implementados. Os testes de avaliação subjectiva foram efectuados com a ajuda de alguns voluntários, que interagiam com o sistema seguindo um protocolo previamente criado. Assim foi possível obter informações relativamente à influência do sistema com o utilizador final, bem como verificar quais os pontos a melhorar em trabalhos futuros. Este trabalho originou um artigo que foi submetido no âmbito do 13º Encontro da "Associação Portuguesa de Engenharia de Áudio" (APEA). O artigo foi aceite e a apresentação do trabalho foi feita aos participantes.
Considering audio augmented reality applications, a demo version was developed of an auralization system featuring automatic detection of user position and head orientation. The position is determined by calculating the distances between an ultrasound transmitter carried by the user and fixed receivers distributed in the room. Head tracking is based on a commercial 3-DOF inertial orientation system (InertiaCube3). HRTF data from MIT was used for auralization. The control program was written in MATLAB. The system is supervised from a host computer through a Data Translation board. With this system, the user is able to walk freely within the room and locate virtual sound sources in real time. To evaluate the developed system both objective and subjective tests were performed. With the first ones, it was possible to get the precision of orientation and location systems. The subjective tests were conducted with the help of some volunteers who interacted with the system by following a previously established protocol. It was then possible to get important information regarding the interaction between the system and the final user. Thus it was possible to obtain information regarding the influence of the system with the end user, as well as verify which points to improve in future work. An article was written in order to submit it to the 13th Encounter of "Associação Portuguesa de Engenharia de Áudio" (APEA). The article was accepted and presented to the public.
APA, Harvard, Vancouver, ISO, and other styles
23

Ferreira, Vítor Manuel. "Implementação em DSP de um descodificador perceptual de áudio." Master's thesis, Universidade de Aveiro, 1999. http://hdl.handle.net/10773/17540.

Full text
Abstract:
Mestrado em Engenharia Electrónica e Telecomunicações
Neste trabalho faz-se o estudo de uma solução completa de codificação de áudio de alta qualidade designada por ASC ("Audio Spectral Coder"), implementada em linguagem "C++" para a plataforma PC. Com o objectivo primeiro de tornar o respective algoritmo de descodificação capaz de processar informação codificada em tempo real apresenta-se nesta dissertação uma nova versão. A nova versão do descodificador, designada nesta dissertação por ASD ("'Audio Spectral Decoder"), foi implementada em linguagem "C" sobre uma nova plataforma baseada em DSP: a EVM-TMS320C30 da Texas Instruments. Apresentam-se alguns resultados preliminares do desempenho do descodificador.
This dissertation describes the implementation of the proprietary perceptual decoder algorithm ASC ("Audio Spectral Coder"), for operation in real-time, in a specific hardware platform: the Texas Instruments Evaluation Module based in a 32-bit floating-point Digital Signal Processor - the TMS320C30. The strengths of the algorithm will be highlighted; the implementation criteria and solutions will be described; and some preliminary results will be presented.
APA, Harvard, Vancouver, ISO, and other styles
24

Blauth, Dante Augusto. "Localização do locutor em ambiente de videoconferência utilizando sinal de áudio e vídeo." Universidade do Vale do Rio do Sinos, 2010. http://www.repositorio.jesuita.org.br/handle/UNISINOS/2288.

Full text
Abstract:
Made available in DSpace on 2015-03-05T14:01:49Z (GMT). No. of bitstreams: 0 Previous issue date: 25
Hewlett-Packard Brasil Ltda
A localização do locutor ativo em ambientes de videoconferência traz benefícios importantes, como transmitir apenas o sinal relativo a este locutor, reduzindo a quantidade de informações trafegadas na rede, eliminar ruídos indesejados e ainda possibilitar focar a câmera no locutor. Embora essa tarefa não seja inovadora, ainda está sendo aperfeiçoada, visto que ambientes reais de videoconferência possuem ruído, problemas de iluminação, etc., o que torna o objetivo mais difícil de ser alcançado de maneira satisfatória. O presente trabalho apresenta uma metodologia para localização do locutor ativo em videoconferência, utilizando o sinal de áudio capturado por um arranjo de microfones e o sinal de vídeo capturado por uma web-câmera. No tratamento do sinal de vídeo, utiliza-se um algoritmo para detecção de faces, que é modificado para para diminuir seu custo computacional. O sinal de áudio é processado no domínio de frequência, utilizando-se o algoritmo SRP-PHAT para localizar a fonte sonora. A fusão dos dois
APA, Harvard, Vancouver, ISO, and other styles
25

Pires, André Salim. "Métodos de segmentação musical baseados em descritores sonoros." Universidade de São Paulo, 2011. http://www.teses.usp.br/teses/disponiveis/45/45134/tde-14082011-204700/.

Full text
Abstract:
Esta dissertação apresenta um estudo comparativo de diferentes métodos computacionais de segmentação estrutural musical, onde o principal objetivo é delimitar fronteiras de seções musicais em um sinal de áudio, e rotulá-las, i.e. agrupar as seções encontradas que correspondem a uma mesma parte musical. São apresentadas novas propostas para segmentação estrutural nãosupervisionada, incluindo métodos para processamento em tempo real, alcançando resultados com taxas de erro inferiores a 12%. O método utilizado compreende um estudo dos descritores sonoros e meios de modelá-los temporalmente, uma exposição das técnicas computacionais de segmentação estrutural e novos métodos de avaliação dos resultados que penalizam tanto a incorreta detecção das fronteiras quanto o número incorreto de rótulos encontrados. O desempenho de cada técnica computacional é calculado utilizando diferentes conjuntos de descritores sonoros e os resultados são apresentados e analisados tanto quantitativa quanto qualitativamente.
A comparative study of different music structural segmentation methods is presented, where the goal is to delimit the borders of musical sections and label them, i.e. group the sections that correspond to the same musical part. Novel proposals for unsupervised segmentation are presented, including methods for real-time segmentation, achieving expressive results, with error ratio less then 12%. Our method consists of a study of sound descriptors, an exposition of the computational techniques for structural segmentation and the description of the evaluation methods utilized, which penalize both incorrect boundary detection and incorrect number of labels. The performance of each technique is calculated using different sound descriptor sets and the results are presented and analysed both from quantitative and qualitative points-of-view.
APA, Harvard, Vancouver, ISO, and other styles
26

Rodrigues, João Manuel de Oliveira e. Silva. "Compressão digital de sinais áudio aplicando critérios perceptuais e adaptação para trás." Master's thesis, 1995. http://hdl.handle.net/10773/27338.

Full text
Abstract:
Neste trabalho, faz-se uma análise do problema da codificação digital de sinais áudio de alta qualidade e identifica-se o princípio de codificação perceptual como a solução mais satisfatória. Apresenta-se uma síntese dos sistemas de codificação perceptual encontrados na literatura, realçando a estrutura comum em que assentam, e caracterizam-se as variantes possíveis nos vários módulos dessa estrutura. Com base neste estudo; foi desenvolvido um novo sistema de codificação perceptual de áudio. [...]
In this work, the problem of digital coding of high quality audio signals is analised, and the principles of perceptual coding are identified as the most satisfactory solution. We present a synthesis of the perceptual coding systems found in the literature, stressing their common structure, and we characterize the possible variants that each module in that structure allows. Based on this study, a new perceptual audio coding system was developed. [...]
Mestrado em Engenharia Eletrónica e Telecomunicações
APA, Harvard, Vancouver, ISO, and other styles
27

Sá, Ana Rita de Castro Carreiró e. "Técnicas de processamento digital áudio para caracterização de população de controlo com vista à análise dos efeitos de tiroidectomias." Master's thesis, 2020. http://hdl.handle.net/10316/94060.

Full text
Abstract:
Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
A tiroidectomia é um procedimento comum tanto para remover nódulos benignos como malignos que envolvam a glândula tiroide. Geralmente apresenta uma baixa taxa de complicações, todavia pode resultar no comprometimento vocal derivado de traumatismos cirúrgicos que condicionem a integridade das estruturas responsáveis pela fonação. Após a intervenção cirúrgica, as queixas de disfonia são regulares e podem persistir por cerca de três a seis meses, sendo os pacientes encaminhados para tratamentos terapêuticos. A análise e diagnóstico dos respetivos tratamentos, baseia-se sobretudo em avaliações áudio-precetivas em que a subjectividade está inerente. As técnicas de avaliação subjectivas geram falta de consenso entre os profissionais, pelo que é importante procurar soluções objectivas, através das quais a qualidade vocal seja quantificada por parâmetros acústicos. No âmbito desta dissertação é proposta uma técnica de avaliação objetiva através do processamento digital de sinais acústicos. Para tal, é implementado, em MATLAB, um conjunto de algoritmos de processamento de som durante um protocolo de teste fonético, que permite quantificar alterações nos padrões de vibração das pregas vocais. Os principais parâmetros que identificam tais alterações são: Frequência Fundamental, jitter, RAP, PPQ5, shimmer, APQ3, APQ5, APQ11 e Harmonic-to-Noise Ratio. O estudo inclui uma amostra com 15 sujeitos do género feminino e 15 do género masculino e a avaliação da sua qualidade vocal com recurso à produção das vogais sustentadas /a/ e /i/. A partir dos resultados obtidos é estabelecida uma comparação estatística entre os parâmetros obtidos através do software standard nesta caracterização (Praat) e os resultados do algoritmo desenvolvido. Além disso, são investigadas as características específicas que possam ter influência sobre a qualidade vocal de cada sujeito. Através da análise da distribuição métrica dos respetivos parâmetros de ambas as plataformas de análise, verificou-se que as diferenças foram pouco significativa na maior parte deles. A validação experimental mostra que este método exibe resultados fiáveis, podendo ser aplicado a situações reais em ambiente clínico. Com o presente trabalho pretendeu-se assim, dotar futuros desenvolvimentos no domínio das ferramentas de análise necessárias para a correta caracterização de uma população no estudo do efeito das tiroidectomias.
Thyroidectomy is a common procedure to remove both benign and malignant nodules that surround the thyroid gland. Even though it presents a low rate of complications, surgical trauma during the operation can result in vocal impairment that compromises the integrity of the structures responsible for phonation. After the surgical intervention, complaints of dysphonia are regular and may persist for about three to six months. The analysis and diagnosis of the respective treatments are mainly based on audio-preceptive evaluations. Due to the subjective nature of these techniques, there is a lack of consensus among professionals in their analysis. Therefore, it becomes important to develop unbiased solutions, through which the vocal quality can be quantified by acoustic parameters. In this dissertation, an objective evaluation technique through the digital processing of acoustic signals is presented. For this purpose, a set of sound processing algorithms are implemented during a phonetic test protocol, using MATLAB, which allows for the quantification of changes in vocal fold vibration patterns. The main parameters that are used to identify such changes are: Fundamental Frequency, jitter, RAP, PPQ5, shimmer, APQ3, APQ5, APQ11 and Harmonic-to-Noise Ratio.The study includes a sample of 15 female and 15 male subjects and the evaluation of their vocal quality through the analysis of sustained vowels /a/ and /i/. From the results obtained, a statistical comparison is established between parameters from the standard software in this characterization (Praat) and the results of the developed algorithm. Besides, specific characteristics that may influence the vocal quality of each subject are examined. Through the analysis of the metric distribution of the parameters of both analysis platforms, it was found that the differences were negligible in most of them. The experimental validation shows that the developed method can achieve reliable results, therefore showing potential for application in the clinical environment.Overall, this work provides a step forward in the development of methods for correct characterization of the effects of thyroidectomies in a given population.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography