Dissertationen zum Thema „Speech Communication. Engineering, Electronics and Electrical“
Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an
Machen Sie sich mit Top-50 Dissertationen für die Forschung zum Thema "Speech Communication. Engineering, Electronics and Electrical" bekannt.
Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.
Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.
Sehen Sie die Dissertationen für verschiedene Spezialgebieten durch und erstellen Sie Ihre Bibliographie auf korrekte Weise.
Othman, Noor Shamsiah. „Wireless speech and audio communications“. Thesis, University of Southampton, 2008. https://eprints.soton.ac.uk/64488/.
Der volle Inhalt der QuelleShen, Donglin. „Emulation study of speech communications over ATM networks“. Thesis, University of Ottawa (Canada), 1996. http://hdl.handle.net/10393/9544.
Der volle Inhalt der QuelleRouchy, Christophe. „Systematic Design of Space-Time Convolutional Codes“. Thesis, University of California, Santa Cruz, 2014. http://pqdtopen.proquest.com/#viewpdf?dispub=1554232.
Der volle Inhalt der QuelleSpace-time convolutional code (STCC) is a technique that combines transmit diversity and coding to improve reliability in wireless fading channels. In this proposal, we demonstrate a systematic design of multi-level quadrature amplitude modulation (M-QAM) STCCs utilizing quadrature phase shift keying (QPSK) STCC as component codes for any number of transmit antennas. Morever, a low complexity decoding algorithm is introduced, where the decoding complexity increases linearly by the number of transmit antennas. The approach is based on utilizing a group interference cancellation technique also known as combined array processing (CAP) technique.
Finally, our research topic will explore: with the current approach, a scalable STTC with better performance as compared to space- time block code (STBC) combined with multiple trellis coded modulation (MTCM) also known as STBC-MTCM; the design of low complexity decoder for STTC; the combination of our approach with multiple-input multiple-output orthogonal frequency division multiplexing (MIMO-OFDM).
Ho, Wen Tsern 1977. „Clock and data recovery circuitry for high speed communication systems“. Thesis, McGill University, 2004. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=82494.
Der volle Inhalt der QuelleThis thesis investigates the usage of legacy architectures and the implementation of different topologies using digital CMOS technology. Various Clock and Data Recovery Phase-Locked Loops have been implemented using a 0.18mum CMOS technology, and the process from modeling to actual implementation will be presented. The design of the components of the loop, layout issues, and the performance of the various designs will be discussed. New fully-differential CMOS designs that are optimized for high-speed operation, yet providing stable lock with minimal jitter, with a targeted operation range from 1 GHz to 7 GHz, will be described in detail, as well as their operation and optimization.
Tian, Xizhen. „Investigation of HBT preamplification for high speed optical communication systems“. Thesis, University of Ottawa (Canada), 2002. http://hdl.handle.net/10393/6273.
Der volle Inhalt der QuelleFan, Yongquan. „Accelerating jitter and BER qualifications of high speed serial communication interfaces“. Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=86531.
Der volle Inhalt der QuelleThe thesis first proposes a new algorithm, suitable for extrapolating the receiver jitter tolerance performance from higher BER regions down to the 10-12 level or lower [2]. This algorithm enables us to perform the jitter tolerance characterization and production test more than 1000 times faster [3]. Then an under-sampling based transmitter test scheme is presented. The scheme can accurately extract the transmitter jitter and finish the whole transmitter test within 100ms [4] while the test usually takes seconds. All the receiver and transmitter testing schemes have been successfully used on Automatic Test Equipment (ATE) to qualify millions of HSSIs with speed up to 6 Gigabits per second (Gbps).
The thesis also presents an external loopback-based testing scheme, where a novel jitter injection technique is proposed using the state-of-the-art phase delay lines. The scheme can be applied to test HSSIs with data rate up to 12.5 Gbps. It is also suitable for multi-lane HSSI testing with a lower cost than pure ATE solutions. By using high-speed relays, we combine the proposed ATE based approaches and the loopback approach along with an FPGA-based BER tester to provide a more versatile scheme for HSSI post-silicon validation, testing and debugging [5]. In addition, we further explore the unparallel advantages of our digital Gaussian noise generator in low BER evaluation [6].
Les interfaces sérielles à haute vitesse (interfaces HSSI) ont connu une utilisation accrue dans les télécommunications. Le taux d'erreur sur les bits (BER), mesure de la fréquence des erreurs, est d'une importance cruciale dans les interfaces modernes de télécommunication. Cette thèse traite de l'accélération de la caractérisation du vacillement et des tests BER.
Cette thèse propose tout d'abord un nouvel algorithme, approprié pour l'extrapolation de la performance de la tolérance au vacillement d'un récepteur pour un taux d'erreur sur les bits (BER) à un niveau de 10-12 ou moins. Cet algorithme permet de caractériser la tolérance au vacillement dans les tests de production plus de 1000 fois plus rapidement. Ensuite, une conception de transmetteur à sous-échantillonnage est présenté. Cette conception permet d'extraire précisément le vacillement du transmetteur et de compléter les tests de ce dernier en moins de 100 ms alors que ces tests durent normalement plusieurs secondes. Toutes les méthodes de test de récepteurs et de transmetteurs ont été utilisées avec succès sur un équipement d'éssai automatique (ATE) pour qualifier des millions d'interfaces HSSI à des vitesses allant jusqu'à 6 gigabits par seconde (6 Gbps).
Cette thèse présente aussi une conception de test en bouclage où une nouvelle méthode d'injection de vacillement est proposée en utilisant des lignes de délai de phase. Cette méthode peut être appliquée pour tester des interfaces HSSI avec un taux de transfer allant jusqu'à 12.5 Gbps. Elle permet aussi de tester des interface HSSI multi-lignes à un coût moindre qu'une solution utilisant un ATE. En utilisant des relais à haute vitesse, les approches sur ATE et par test en bouclage peuvent être combinées en incorporant un testeur de BER sur circuit intégré prédiffusé programmable (FPGA), ce qui permet une méthode de tests HSSI polyvalente pour la validation post-fabrication, les tests et le débogage. Finalement, nous explorons les avantages de notre générateur de bruit Gaussien dans l'évaluation de BER à bas niveau.
Elsherif, Mohamed Asaad. „Mapping multiplexing technique (MMT) : a novel intensity modulated transmission format for high-speed optical communication systems“. Thesis, University of Nottingham, 2016. http://eprints.nottingham.ac.uk/33413/.
Der volle Inhalt der QuelleLeong, Michael. „Representing voiced speech using prototype waveform interpolation for low-rate speech coding“. Thesis, McGill University, 1992. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=56796.
Der volle Inhalt der QuelleIn examining the PWI method, it was found that although the method generally works very well there are occasional sections of the reconstructed voiced speech where audible distortion can be heard, even when the prototypes are not quantized. The research undertaken in this thesis focuses on the fundamental principles behind modelling voiced speech using PWI instead of focusing on bit allocation for encoding the prototypes. Problems in the PWI method are found that may be have been overlooked as encoding error if full encoding were implemented.
Kleijn uses PWI to represent voiced sections of the excitation signal which is the residual obtained after the removal of short-term redundancies by a linear predictive filter. The problem with this method is that when the PWI reconstructed excitation is passed through the inverse filter to synthesize the speech undesired effects occur due to the time-varying nature of the filter. The reconstructed speech may have undesired envelope variations which result in audible warble.
This thesis proposes an energy fixup to smoothen the synthesized speech envelope when the interpolation procedure fails to provide the smooth linear result that is desired. Further investigation, however, leads to the final proposal in this thesis that PWI should he performed on the clean speech signal instead of the excitation to achieve consistently reliable results for all voiced frames.
Abboud, Karim. „Wideband CELP speech coding“. Thesis, McGill University, 1992. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=56805.
Der volle Inhalt der Quellethe first approach considers the quantization of Liner Predictive Coding (LPC) parameters and uses a three way split vector quantization. Both scalar and vector quantization are initially studied; results show that, with adequate codebook training, the second method generates better results while using a fewer number of bits. Nevertheless, the use of vector quantizers remain highly complex in terms of memory and number of computations. A new quantization scheme, split vector quantization (split VQ), is investigated to overcome this complexity problem. Using a new weighted distance measure as a selection criterion for split VQ, the average spectral distortion is significantly reduced to match the results obtained with scalar quantizers.
The second approach introduces a new pitch predictor with an increased temporal resolution for periodicity. This new technique has the advantage of maintaining the same quality obtained with conventional multiple coefficient predictors at a reduced bit rate. Furthermore, the conventional CELP noise weighting filter is modified to allow more freedom and better accuracy in the modeling of both tilt and formant structures. Throughout this process, different noise weighting schemes are evaluated and the results show that the new filter greatly contributes in solving the problem of high frequency distortion.
The final wideband CELP coder is operational at 11.7 kbits/s and generates a high perceptual quality of the reconstructed speech using the fractional pitch predictor and the new perceptual noise weighting filter.
Nour-Eldin, Amr. „Quantifying and exploiting speech memory for the improvement of narrowband speech bandwidth extension“. Thesis, McGill University, 2014. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=121195.
Der volle Inhalt der QuelleDepuis sa normalisation dans les années 1960, la bande passante traditionnelle de la téléphonie de la parole a été limitée à la bande étroite de 0,3 à 3,4 kHz. La reconstruction de la parole à large bande à travers l'extension artificielle de la bande passante (EBP) essaye de régénérer la bande passante à haute fréquence au-dessus de 3,4 kHz au niveau du récepteur, ce qui permet la rétrocompatibilité avec les réseaux existants. Les travaux précédentes sur l'EBP ont principalement utilisé une cartographie sans mémoire pour modéliser la corrélation entre les spectres à bande étroite et ceux à haute fréquence. Dans cette thèse, nous étudions l'exploitation de la mémoire vocale en référence à l'information à long terme dans des segments plus longs que les cadres conventionnels de 10–30 ms; ceci est dans le but d'améliorer la corrélation inter-bande capitale pour l'EBP. Focalisant sur des durées de parole modélisées jusqu'à 600 ms par des coefficients delta, nous quantifions d'abord la corrélation entre les paramétrisations à long terme des bandes à bases et hautes fréquences en utilisant la théorie de l'information et la modélisation statistique basée sur des modèles de mélanges Gaussiens (GMMs) ainsi que la quantification vectorielle. En plus de montrer que l'inclusion de la mémoire peut en effet augmenter la certitude sur le contenu spectral de la haute bande dans des GMMs de bandes jointes de plus de 100%, notre étude démontre également que les gains réalisables par une telle inclusion sature, à peu près, à la durée syllabique de 200 ms. Afin de transformer ces gains théoriques de certitude sur la bande haute à des améliorations tangibles en performance de l'EBP, nous proposons ensuite deux nouvelles approches pour l'EBP avec mémoire qui sont basées sur des GMMs et où les spectres à haute bande sont reconstruits, sachant ceux de la bande étroite, par l'estimation de l'erreur quadratique moyenne. Dans la première approche, nous incorporons des coefficients delta dans les représentations vectorielles modélisées par des GMMs de bandes jointes. En raison de la non-inversibilité des coefficients delta, cependant, nous proposons un processus d'optimisation empirique pour déterminer l'allocation optimale des dimensionnalités disponibles parmi les paramètres statiques et coefficients delta de sorte que la certitude sur le contenu statique de la haute bande est maximisée. L'intégration de la mémoire optimisé de cette manière dans la paramétrisation de notre système de base d'EBP entraîne des améliorations de performances qui, bien que modestes, offrent un moyen facile et pratique pour exploiter les caractéristiques dynamiques de la parole afin d'améliorer les performances d'EBP. Dans notre deuxième approche, nous nous concentrons sur la modélisation des distributions de dimensionnalités élevées qui sous-tendent des séquences de vecteurs de paramètres de bandes conjointes. À cette fin, nous étendons le cadre de GMMs en présentant une nouvelle approche d'apprentissage où les séquences des cadres passés sont progressivement utilisées afin d'estimer les paramètres des GMMs de dimensionnalités élevées qui sont temporellement étendus d'une manière arborescente et localisée en temps-fréquence. En intégrant des GMMs temporellement étendus dans notre système de base d'EBP sans mémoire, nous montrons que cette technique d'EBP avec mémoire modelisée peut surpasser non seulement notre première approche basée sur les coefficients delta, mais aussi d'autres techniques souvent citées dans la littérature. Bien que cette performance supérieure est réalisée au coût d'une augmentation significative des calculs associés à l'étape d'extension, nous démontrons néanmoins que ces coûts sont conformes aux capacités typiques des appareils de communication modernes tels que les tablettes et les téléphones intelligents.
Hsu, Wei-shou 1981. „Robust bandwidth extension of narrowband speech“. Thesis, McGill University, 2004. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=82497.
Der volle Inhalt der QuelleThis thesis presents a bandwidth extension algorithm that mitigates the effects of adverse conditions. The proposed system is designed to work with noisy input speech and unknown channel frequency response. To maximize the naturalness of the reconstructed speech, the algorithm estimates the channel and applies equalization to recover the attenuated bands. Artifacts are reduced by employing an adaptive and a fixed postfilter.
Subjective test results suggest that the proposed scheme is not affected by channel conditions and is able to produce speech with enhanced quality in adverse environments.
Soong, Michael. „Predictive split vector quantization for speech coding“. Thesis, McGill University, 1994. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=68054.
Der volle Inhalt der QuelleSummation Product Codes (SPCs) are a family of structured vector quantizers that circumvent the complexity obstacle. The performance of SPC vector quantizers can be traded off against their storage and encoding complexity. Besides the complexity factors, the design algorithm can also affect the performance of the quantizer. The conventional generalized Lloyd's algorithm (GLA) generates sub-optimal codebooks. For particular SPC such as multistage VQ, the GLA is applied to design the stage codebooks stage-by-stage. Joint design algorithms on the other hand update all the stage codebooks simultaneously.
In this thesis, a general formulation and an algorithm solution to the joint codebook design problem is provided for the SPCs. The key to this algorithm is that every PC has a reference product codebook which minimizes the overall distortion. This joint design algorithm is tested with a novel SPC, namely "Predictive Split VQ (PSVQ)".
VQ of speech Line Spectral Frequencies (LSF's) using PSVQ is also presented. A result in this work is that PSVQ, designed using the joint codebook design algorithm requires only 20 bits/frame(20 ms) for transparent coding of a 10$ sp{ rm th}$ order LSF's parameters.
Choy, Eddie L. T. „Waveform interpolation speech coder at 4 kbs“. Thesis, McGill University, 1998. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=20901.
Der volle Inhalt der QuelleDe, Aloknath. „Auditory distortion measures for speech coder evaluation“. Thesis, McGill University, 1993. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=41270.
Der volle Inhalt der QuelleGrass, John. „Quantization of predictor coefficients in speech coding“. Thesis, McGill University, 1990. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=60067.
Der volle Inhalt der QuelleScalar quantization is the first approach evaluated. Results show that Line Spectral Frequencies require significantly fewer bits than reflection coefficients for comparable performance. The second approach investigated is the use of vector-scalar quantization. In the first stage, vector quantization is performed. The second stage consists of a bank of scalar quantizers which code the vector errors between the original LPC coefficients and the components of the vector of the quantized coefficients.
The approach is to couple the vector and scalar quantization stages. Every codebook vector is compared to the original LPC coefficient vector to produce error vectors. The second innovation into vector-scalar quantization is the incorporation of a small adaptive codebook to the large fixed codebook. Frame-to-frame correlation of the LPC coefficients is exploited at no extra cost in bits.
The performance of the vector-scalar quantization using the two new techniques is better than that of the scalar coding techniques currently used in conventional LPC coders.
Maroun, Nabih. „Toll-quality speech coding at 8 kbs“. Thesis, McGill University, 1993. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=56802.
Der volle Inhalt der QuelleBatri, Nadim. „Robust spectral parameter coding in speech processing“. Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1998. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape11/PQDD_0005/MQ43996.pdf.
Der volle Inhalt der QuelleHe, Wei. „Adaptive-rate digital speech transmission“. Thesis, University of Warwick, 1993. http://wrap.warwick.ac.uk/104723/.
Der volle Inhalt der QuelleEl-Khoury, Roland. „Evaluating a speech interface system for an ICU“. Thesis, McGill University, 1994. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=69793.
Der volle Inhalt der QuelleLoo, James H. Y. (James Hung Yan). „Intraframe and interframe coding of speech spectral parameters“. Thesis, McGill University, 1996. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=24065.
Der volle Inhalt der QuelleBecause speech is quasi-stationary, interframe coding methods such as predictive SVQ (PSVQ) can exploit the correlation between adjacent LSF vectors. Nonlinear PSVQ (NPSVQ) is introduced in which a nonparametric and nonlinear predictor replaces the linear predictor used in PSVQ. Regardless of predictor type, PSVQ garners a performance gain of 5-7 bits/frame over SVQ. By interleaving intraframe SVQ with PSVQ, error propagation is limited to at most one adjacent frame. At an overall bit rate of about 21 bits/frame, NPSVQ can provide similar coding quality as intraframe SVQ at 24 bits/frame (an average gain of 3 bits/frame). The particular form of nonlinear prediction we use incurs virtually no additional encoding computational complexity. Voicing classification is used in classified NPSVQ (CNPSVQ) to obtain an additional average gain of 1 bit/frame for unvoiced frames. Furthermore, switched-adaptive predictive SVQ (SA-PSVQ) provides an improvement of 1 bit/frame over PSVQ, or 6-8 bits/frame over SVQ, but error propagation increases to 3-7 frames. We have verified our comparative performance results using subjective listening tests.
Duplessis-Beaulieu, François. „Fast convolutive blind speech separation via subband adaptation“. Thesis, McGill University, 2002. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=29535.
Der volle Inhalt der QuelleAn implementation of a subband-based BSS system using DFT filter banks is described, and an adaptive algorithm tailored for subband separation is developed. Aliasing present in the filter bank (due to the non-ideal frequency response of the filters) is reduced by using an oversampled scheme. Experiments, conducted with two-input two-output BSS systems, using both subband and fullband adaptation, indicate that separation and distortion rates are similar for both systems. However, the proposed 32-subband system is approximately 10 times computationally faster than the fullband system.
Agarwal, Tarun. „Pre-processing of noisy speech for voice coders“. Thesis, McGill University, 2002. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=33953.
Der volle Inhalt der QuelleThe purpose of this thesis is to develop and test a two-branch speech enhancement pre-processing system. This system consists of two denoising blocks. One block will enhance the degraded speech for accurate LPC estimation. The second block will increase the perceptual quality of the speech to be coded. The goals of this research are two-fold---to design the second block, and to compare the performance of other denoising schemes in each of the two branches. Test results show that the two-branch system can provide better perceptual quality of coded speech over conventional one-branch (i.e., one denoising block) speech enhancement techniques under many noisy environments.
Klein, Mark 1977. „Signal subspace speech enhancement with perceptual post-filtering“. Thesis, McGill University, 2002. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=33975.
Der volle Inhalt der QuelleThis thesis introduces the Enhanced Signal Subspace (ESS) system to mitigate the above problems. Based on a signal subspace framework, ESS has been designed to attenuate disturbances while minimizing audible distortion.
Artefacts are reduced by employing an auditory post-filter to smooth the enhanced speech spectra. This filter performs averaging in a manner that exploits the properties of the human auditory system. As such, distortion of the underlying speech signal is reduced.
Testing shows that listeners prefer the proposed algorithm to traditional signal subspace speech enhancement.
Roy, Guylain. „Low-rate analysis-by-synthesis wideband speech coding“. Thesis, McGill University, 1990. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=59643.
Der volle Inhalt der QuelleThe study consists of three stages. First, aspects of wideband spectral envelope modeling using Line Spectral Frequencies (LSF's) are studied. Then, the underlying coder structure is derived from a basic Residual Excited Linear Predictive coder (RELP). This structure is enhanced by the addition of a pitch prediction stage, and by the development of full-band and split-band pitch parameter optimization procedures. These procedures are then applied to an Code Excited Linear Prediction (CELP) model. Finally, the performance of full-band and split-band CELP structures are compared.
Bees, Duncan Charles. „Enhancement of acoustically reverberant speech using cepstral methods“. Thesis, McGill University, 1990. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=59819.
Der volle Inhalt der QuelleWe first study previously described cepstral techniques for removal of simple echoes from signals. Our results show that these techniques are not directly applicable to the enhancement of speech of indefinite extent. We next recast these techniques specifically for speech. We propose new segmentation and windowing strategies, in combination with cepstral averaging, to accurately identify the acoustical impulse response. We then consider inverse filtering based on an estimated acoustical impulse response, and find that finite impulse response filters designed according to the least mean squared error criterion provide satisfactory performance. Finally, we synthesize and test an algorithm for enhancement of reverberant speech. Although significant difficulties remain, we feel that our methods offer a substantial contribution to the solution of the reverberant speech enhancement problem.
Chahine, Gebrael. „Pitch modelling for speech coding at 4.8 kbitss“. Thesis, McGill University, 1993. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=69724.
Der volle Inhalt der QuelleA multi-tap LTP outperforms a single-tap LTP, but at the expense of a greater number of bits. A single-tap LTP can be improved by increasing the time resolution of the LTP. This results in a fractional delay LTP, which produces a significant increase in prediction gain and perceived periodicity at the cost of more bits, but less than for the multi-tap case.
The first new approach in this work is to use a pseudo-three-tap pitch filter with one or two degrees of freedom of the predictor coefficients, which gives a better quality reconstructed speech and also a more desirable frequency response than a one-tap pitch prediction filter. The pseudo-three-tap pitch filter with one degree of freedom is of particular interest as no extra bits are needed to code the pitch coefficients.
The second new approach is to perform time scaling/shifting on the original speech minimizing further the minimum mean square error and allowing a smoother and more accurate reconstruction of the pitch structure. The time scaling technique allows a saving of 1 bit in coding the pitch parameters while maintaining very closely the quality of the reconstructed speech. In addition, no extra bits are needed for the time scaling operation as no extra side information has to be transmitted to the receiver.
Gagnon, Luc. „A speech enhancement algorithm based upon resonator filterbanks“. Thesis, University of Ottawa (Canada), 1991. http://hdl.handle.net/10393/7767.
Der volle Inhalt der QuelleStarks, David Ross. „Speech recognition in adverse environments: Improvements to IMELDA“. Thesis, University of Ottawa (Canada), 1995. http://hdl.handle.net/10393/9483.
Der volle Inhalt der QuelleSylvestre, Benoit. „Time-scale modification of speech : a time-frequency approach“. Thesis, McGill University, 1991. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=60496.
Der volle Inhalt der QuelleFoodeei, Majid. „Low-delay speech coding at 16 kbs and below“. Thesis, McGill University, 1991. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=60717.
Der volle Inhalt der QuelleWhen compared under similar conditions, the two coders showed comparable performance at 16 kb/s. Issues in backward adaptive linear prediction analysis for both near and far sample redundancy removal such as analysis methods, windowing, ill-conditioning, quantization noise effects and computational complexities are studied.
Nguỹên, Bao 1962. „The hidden filter model : applications for automatic speech processing“. Thesis, McGill University, 1991. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=60588.
Der volle Inhalt der QuelleThe hidden Markov filters are used to segment speech signals. Test results show very consistent locations of phone boundaries. The hidden filter model fits vocalic segments very well (with normalized prediction errors of less than 0.01), but performs less well on consonants (with normalized prediction errors of up to 0.3).
The speech segmentation by hidden filters is applied to a large vocabulary speaker dependent isolated-word recognizer at the preprocessing stage. The performances of the recognizer with and without preprocessor are compared. The results show small improvements in the recognition accuracy.
Vakil, Sam. „Gaussian mixture model based coding of speech and audio“. Thesis, McGill University, 2004. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=81575.
Der volle Inhalt der QuelleThis work introduces a coding scheme which works in a perceptual auditory domain. The input high dimensional frames of audio and speech are transformed to power spectral domain, using either DFT or MDCT. The log spectral vectors are then transformed to the excitation domain. In the quantizer section the vectors are DCT transformed and decorrelated. This operation gives the possibility of using diagonal covariances in modelling the data. Finally, a GMM based VQ is performed on the vectors.
In the decoder part the inverse operations are done. However, in order to prevent negative power spectrum elements due to inverse perceptual transformation in the decoder, instead of direct inversion, a Nonnegative Least Squares Algorithm has been used to switch back to frequency domain. For the sake of comparison, a reference subband based "Excitation Distortion coder" is implemented and comparing the resulting coded files showed a better performance for the proposed GMM based coder.
Pereira, Wesley. „Modifying LPC parameter dynamics to improve speech coder efficiency“. Thesis, McGill University, 2001. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=32970.
Der volle Inhalt der QuelleKonaté, Cheick Mohamed. „Enhancing speech coder quality: improved noise estimation for postfilters“. Thesis, McGill University, 2011. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=104578.
Der volle Inhalt der QuelleITU-T G.711.1 est une extension multi-débit pour signaux à large-bande de la très répandue norme de compression audio de UIT-T G.711. Cette extension est interoperationelle avec sa version initiale à bande étroite. Lorsque l'ancienne version G.711 est employée pour coder un signal vocal et que G.711.1 est utiliser pour le décoder, le bruit de quantificationpeut être entendu. Pour ce cas, la norme propose un post-filtre optionel. Le post-filtre nécessite l'estimation du bruit de quantification. La précision de l'estimation du bruit de quantification va jouer sur la performance du post-filtre.Dans cette thèse, nous proposons un meilleur estimateur du bruit de quantification pour le post-filtre proposé pour le codec G.711.1 et nous évaluons ses performances. L'estimateur que nous proposons donne une estimation plus précise du bruit de quantification avec la même complexité.
Zabawskyj, Bohdan Konstantyn. „On the use of vector quantization on speech enhancement“. Thesis, McGill University, 1993. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=68060.
Der volle Inhalt der QuellePapacostantinou, Costantinos. „Improved pitch modelling for low bit-rate speech coders“. Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1997. http://www.collectionscanada.ca/obj/s4/f2/dsk2/ftp01/MQ37279.pdf.
Der volle Inhalt der QuelleJabloun, Firas. „Perceptual and Multi-Microphone Signal Subspace Techniques for Speech Enhancement“. Thesis, McGill University, 2004. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=95577.
Der volle Inhalt der QuelleIl est connu que la performance des systèmes de communication par la voix se détériore lorsqu'ils sont utilisés dans des environnements acoustiques peu favorables. En effet, la présence du bruit cause la perte de l'intelligibilité et engendre la fatigue chez les auditeurs. Ces problèmes peuvent rendre les systèmes existant sur le marché inintressants pour les clients surtout que les services offerts par les compagnies de télécommunication ne comportent aucune restriction sur les endroits où ils seront utilisés. Dans ce contexte, les algorithmes qui visent à améliorer la qualité du signal parole sont très importants du fait qu'ils permettent à ces systèmes de satisfaire les attentes du marché. Dans cette thèse, nous présentons des nouvelles techniques, visant à rehausser la qualité de la voix, qui sont basées sur l'approche de sous-espace du signal (SES). Selon cette approche, les vecteurs du signal sont projetés sur le sous-espace du signal où ils sont traités afin d'éliminer le bruit restant. Après ce traitement, les vecteurs seront reconstruits dans le domaine du temps. La projection est obtenue grâce à la décomposition en valeurs propres de la matrice de covariance du signal parole. Le problème avec l'approche SES est que le coût, en terme de temps de calcul, relié à la décomposition en valeurs propres est élevé. Dans cette thèse, nous proposons une technique simple pour résoudre ce problème. Cette technique réduit considérablement le temps de calcul car le filtre en sous-espace est mis à jour moins fréquemment. Initialement, l'implémentation de l'approche SES consistait à recalculer un nouveau filtre pour chaque vecteur. L'originalité de notre technique réside dans l'exploitation de la stationnarité du signal parole dans un intervalle de 20-30 msec afin d'utiliser la même décomposition en valeurs propres pour plusieurs vecteurs. Les expériences menées montrent que notre nouvelle technique réduit consid
El-Maleh, Khaled Helmi. „Classification-based techniques for digital coding of speech-plus-noise“. Thesis, McGill University, 2004. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=84239.
Der volle Inhalt der QuelleThe quality of a telephone conversation using a VAD-based coding system depends on three major modules: the speech coder, the noise coder, and the VAD. Existing schemes for reduced-rate coding of background noise produce a signal that sounds different from the noise at the transmitting side. The frequent changes of the noise character between that produced during talk spurts (noise coded along with the speech) and that produced during speech pauses (noise coded at a reduced rate) are noticeable and can be annoying to the user.
The objective of this thesis is to develop techniques that enhance the output quality of variable-rate and discontinuous-transmission speech coding systems operating in noisy acoustic environments during the pauses between speech bursts. We propose novel excitation models for natural-quality reduced-rate coding of background acoustic noise in voice communication systems. A better representation of the excitation signal in a noise-synthesis model is achieved by classifying the type of acoustic environment noise. Class-dependent residual substitution is used at the receive side to synthesize a background noise that sounds similar to the background noise at the transmit side. The improvement in the quality of synthesized noise during speech gaps helps in preserving noise continuity between talk spurts and speech pauses, and enhances the overall perceived quality of a conversation.
Khan, Mohammad M. A. „Coding of excitation signals in a waveform interpolation speech coder“. Thesis, McGill University, 2001. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=32961.
Der volle Inhalt der QuelleProduct code vector quantizers (PC-VQ) are a family of structured VQs that circumvent the complexity obstacle. The performance of product code VQs can be traded off against their storage and encoding complexity. This thesis introduces split/shape-gain VQ---a hybrid product code VQ, as an approach to quantize the SEW magnitude. The amplitude spectrum of the SEW is split into three non-overlapping subbands. The gains of the three subbands form the gain vector which are quantized using the conventional Generalized Lloyd Algorithm (GLA). Each shape vector obtained by normalizing each subband by its corresponding coded gain is quantized using a dimension conversion VQ along with a perceptually based bit allocation strategy and a perceptually weighted distortion measure. At the receiver, the discontinuity of the gain contour at the boundary of subbands introduces buzziness in the reconstructed speech. This problem is tackled by smoothing the gain versus frequency contour using a piecewise monotonic cubic interpolant. Simulation results indicate that the new method improves speech quality significantly.
The necessity of SEW phase information in the WI coder is also investigated in this thesis. Informal subjective test results demonstrate that transmission of SEW magnitude encoded by split/shape-gain VQ and inclusion of a fixed phase spectrum drawn from a voiced segment of a high-pitched male speaker obviates the need to send phase information.
Thiemann, Joachim. „Acoustic noise suppression for speech signals using auditory masking effects“. Thesis, McGill University, 2001. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=31073.
Der volle Inhalt der QuelleKhan, Abdul Hannan. „Tree encoding in the ITU-T G.711.1 speech coder“. Thesis, McGill University, 2011. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=97215.
Der volle Inhalt der QuelleCette thèse étudie en détail les améliorations apportées au codeur de la parole ITU-T G.711.1. Le codeur original G.711 est en fait un quantificateur μ-law. Le prolongement large-bande G.711.1 utilise le façonnage du bruit ainsi qu'une couche d'amélioration de la bande-basse en plus de la bande-haute. Afin d'améliorer le codage de la bande-basse principale, nous étudions l'utilisation de quantification vectorielle et la décision à retardement. Le codeur arboriforme avec décision à retardée est réalisé par l'algorithme(M,L). Le nouveau quantificateur considère l'information passée et par conséquent, il considère également la propagation de l'erreur engendrée par le façonnage du bruit. Il code plusieurs échantillons par μ-law. Le flot binaire final est compatible avec le décodeur du prolongement large-bande G.711.1 et donc naturellement avec le décodeur du G.711 original. Une méthode d'évaluation, ITU-T P.862 (PESQ) est utilisée pour évaluer la performance. Les résultats montrent que la quantification vectorielle et le codeur arboriforme sont perceptuellement plus performants que le codeur original de la bande principale. Nous notons tout de même qu'ils sont numériquement plus complexes à réaliser. Des études supplémentaires sont suggérées.
Montminy, Christian. „A study of speech compression algorithms for Voice over IP“. Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2000. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape4/PQDD_0017/MQ57147.pdf.
Der volle Inhalt der QuelleSzymanski, Lech. „Comb filter decomposition feature extraction for robust automatic speech recognition“. Thesis, University of Ottawa (Canada), 2005. http://hdl.handle.net/10393/27051.
Der volle Inhalt der QuelleLi, Lian. „The design and implementation of a real-time multimedia synchronization control system over high-speed communications networks“. Thesis, University of Ottawa (Canada), 1994. http://hdl.handle.net/10393/6738.
Der volle Inhalt der QuelleCardinal, Patrick. „Finite-state transducers and speech recognition“. Thesis, McGill University, 2003. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=78335.
Der volle Inhalt der QuelleSafavi, Saeid. „Speaker characterization using adult and children's speech“. Thesis, University of Birmingham, 2015. http://etheses.bham.ac.uk//id/eprint/6029/.
Der volle Inhalt der QuellePlourde, Eric. „Bayesian short-time spectral amplitude estimators for single-channel speech enhancement“. Thesis, McGill University, 2009. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=66864.
Der volle Inhalt der QuelleLes algorithmes de rehaussement de la parole à voie unique sont utilisés afin de réduire le bruit de fond d'un signal de parole bruité. Ils sont présents dans plusieurs appareils tels que les téléphones sans fil et les prothèses auditives. Dans l'approche bayésienne d'estimation de l'amplitude spectrale locale (Short-Time Spectral Amplitude - STSA) pour le rehaussement de la parole, un estimé de la STSA non bruitée est déterminé en minimisant l'espérance statistique d'une fonction de coût. Ce type d'estimateurs incluent le MMSE STSA, le β-SA, qui intègre un exposant comme paramètre de la fonction de coût, et le WE, qui possède un paramètre de pondération.Cette thèse étudie les estimateurs bayésiens du STSA avec pour objectifs d'approfondir la compréhension de leurs propriétés et de proposer de nouvelles fonctions de coût ainsi que de nouveaux modèles statistiques afin d'améliorer leurs performances. En plus d'une étude approfondie de l'estimateur β-SA pour les valeurs de β ≤ 0, trois nouvelles familles d'estimateur sont dévelopées dans cette thèse: le β-SA pondéré (Weighted β-SA - Wβ-SA), une famille d'estimateur du STSA généralisé et pondéré (Generalized Weighted STSA - GWSA) ainsi qu'une famille d'estimateur du STSA multi-dimensionnel.Le Wβ-SA combine l'exposant présent dans le β-SA et le paramètre de pondération du WE. Ses paramètres sont choisis en considérant certaines caractéristiques du système auditif humain ce qui a pour avantage d'améliorer la réduction du bruit de fond à hautes fréquences tout en limitant les distorsions de la parole à basses fréquences. Une généralisation de la structure commune des fonctions de coût de plusieurs estimateurs bayésiens du STSA est proposée à l'aide de la famille d'estimateur GWSA. Cette dernière permet une unification des estimateurs bayésiens du STSA et apporte une meilleure compréhensio
Reddy, Aarthi. „Speech based machine aided human translation for a document translation task“. Thesis, McGill University, 2012. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=107725.
Der volle Inhalt der QuelleLa traduction de documents dans plusieurs langues represente des coûts eleves pour les entreprises, les gouvernements et les rmes internationales. Au Canada par exemple, il est obligatoire que tous les documents ociels soient rediges en Anglais et en Francais. Cette politique a force l'industrie de traduction a embaucher un grand nombre de traducteurs professionnels. Il est de notoriete que les normes imposees pour la traduction de documents administratifs rendent la tâche des machines de traduction trop ardue. Un grand nombre d'outils sont commercialement disponibles pour ameliorer l'ecacite des traducteurs humains a dierents nivaux de leur travail. Les employes des bureaux de traduction peuvent saisir directement le texte traduit, dicter leur traduction an qu'elle puisse être transcrite de facon authentique, ou bien corriger les premieres versions fournies par les machines de traduction automatique. Le travail de cette these porte sur la traduction humaine assistee par ordinateur (MAHT), ou un traducteur humain dicte une premiere traduction d'un document. Des algorithmes sont implementes pour ameliorer la qualite de traduction de la version dictee en integrant simultanement des informations sur la langue source et sur la langue ciblee. Cette these contribue aux aspects suivants. Premierement, elle presente de nouveaux algorithmes qui ameliorent les traductions dictees. En integrant les informations extraites du document de la langue source avec des modeles statistiques utilises dans la reconnaissance vocale, de meilleures traductions sont obtenues. Deuxiemement, les informations cles telles que les mots identies comme etant des entites nommees, sont recueillies par le document de la langue source grâce aux informations acoustiques, linguistiques, et phonetiques. De cette facon, on s'assure que ces mêmes informations se retrouvent dans le chier traduit. Troisiemement, le systeme specique a la traduction de document est presente et il se demarque du travail fait avec MAHT et CAT, ou l'objectif est uniquement la traduction de phrases ou expressions. Finalement, nous avons cree un nouveau corpus dedie aux applications de cette these. Cet ensemble de documents a ete collecte et estampe a l'Universite McGill et a permis de mener les experiences a bien. Il met en evidence des obstacles qui n'ont pas ete encore rencontres durant les precedentes recherches dans ce domaine, comme l'utilisation de mots de remplissage, les repetitions, et autres erreurs commises par les traducteurs.
Moreno, Carlos 1965. „Variable frame size for vector quantization and application to speech coding“. Thesis, McGill University, 2005. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=99001.
Der volle Inhalt der QuelleIn the case of VQ applied to speech signals, the input signal is divided into frames of a given length. Depending on the particular technique being used, the system either extracts a vector representation of the whole frame (usually some form of spectral representation), or applies some processing to the signal and uses the processed frame itself as the vector to be quantized. The two techniques are often combined, and the system uses VQ for the spectral representation of the frame and also for the processed frame.
A typical assumption in this scheme is the fact that the frame size is fixed. This simplifies the scheme and thus reduces the computing-power requirements for a practical implementation.
In this study, we present a modification to this technique that allows for variable size frames, providing an additional degree of freedom for the optimization of the Data Compression process.
The quantization error is minimized by choosing the closest point in the codebook for the given frame. We now minimize this by choosing the frame size that yields the lowest quantization error---notice that the quantization error is a function of the given frame and the codebook; by considering different frame sizes, we get different actual frames that yield different quantization errors, allowing us to choose the optimal size, effectively providing a second level of optimization.
This idea has two caveats; we require additional data to represent the frame, since we have to indicate the size that was used. Also, the complexity of the system increases, since we have to try different frame sizes, requiring more computing-power for a practical implementation of the scheme.
The results of this study show that this technique effectively improves the quality of the compressed signal at a given compression ratio, even if the improvement is not dramatic. Whether or not the increase in complexity is worth the quality improvement for a given application depends entirely on the design constraints for that particular application.
Agbago, Akakpo. „Investigating speed issues in acoustic-phonetic models for continuous speech recognition“. Thesis, University of Ottawa (Canada), 2004. http://hdl.handle.net/10393/26559.
Der volle Inhalt der Quelle