To see the other types of publications on this topic, follow the link: Biology|Bioinformatics.

Dissertations / Theses on the topic 'Biology|Bioinformatics'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Biology|Bioinformatics.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Pomyen, Yotsawat. "Exploring microRNA biology using integrative bioinformatics." Thesis, Imperial College London, 2014. http://hdl.handle.net/10044/1/24774.

Full text
Abstract:
Deregulation of energy metabolism is one of the emerging hallmarks of cancer required for proliferation and metastasis. MicroRNAs are small RNA molecules that have crucial roles in the regulation of biological processes in organisms, including metabolism. Due to recent discovery of miRNAs in humans, roles of miRNAs in metabolism of tumour cells, and effects these have on cancer patients, are still obscure and in need of expansion. Currently, experimental and computational data on the miRNAs are being analysed by a wide range of statistical methods; however, these methods in their original forms posses many limitations. Therefore, new ways of utilising these statistical methods are needed in order to unravel the roles of miRNAs in cancer metabolism. In this thesis, the roles of a specific miRNA, miR-22, and the three metabolic target genes were investigated through the use of classical statistical methods, revealed that miR-22, the metabolic target genes, and the interactions between them, were beneficial to survival outcome of breast cancer patients. Furthermore, novel combinations of the conventional statistical methods were invented in order to investigate the global miRNA regulations on metabolic target genes. These new procedures were demonstrated by using publicly available data sets. In one analysis, it was found that miRNAs could be divided into six clusters according to the metabolic target genes through a novel combination of statistical methods. A new statistical method was also invented to provide a generalised means to test for clustering based on sets of correlations.
APA, Harvard, Vancouver, ISO, and other styles
2

Malatras, Apostolos. "Bioinformatics tools for the systems biology of dysferlin deficiency." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066627/document.

Full text
Abstract:
Le but de mon projet est de créer et d’appliquer des outils pour l’analyse de la biologie des systèmes musculaires en utilisant différentes données OMICS. Ce projet s’intéresse plus particulièrement à la dysferlinopathie due la déficience d’une protéine appelée dysferline qui est exprimée principalement dans les muscles squelettiques et cardiaque. La perte du dysferline due à la mutation (autosomique-récessive) du gène DYSF entraîne une dystrophie musculaire progressive (LGMD2B, MM, DMAT). Nous avons déjà développé des outils bio-informatiques qui peuvent être utilisés pour l’analyse fonctionnelle de données OMICS, relative à la dyspherlinopathie. Ces derniers incluent le test dit «gene set enrichment analysis», test comparant les profils OMICS d’intérêts aux données OMICS musculaires préalablement publiées ; et l’analyse des réseaux impliquant les diffèrent(e)s protéines et transcrits entre eux/elles. Ainsi, nous avons analysé des centaines de données omiques publiées provenant d’archives publiques. Les outils informatiques que nous avons développés sont CellWhere et MyoMiner. CellWhere est un outil facile à utiliser, permettant de visualiser sur un graphe interactif à la fois les interactions protéine-protéine et la localisation subcellulaire des protéines. Myominer est une base de données spécialisée dans le tissu et les cellules musculaires, et qui fournit une analyse de co-expression, aussi bien dans les tissus sains que pathologiques. Ces outils seront utilisés dans l'analyse et l'interprétation de données transcriptomiques pour les dyspherlinopathies mais également les autres pathologies neuromusculaires<br>The aim of this project was to build and apply tools for the analysis of muscle omics data, with a focus on Dysferlin deficiency. This protein is expressed mainly in skeletal and cardiac muscles, and its loss due to mutation (autosomal-recessive) of the DYSF gene, results in a progressive muscular dystrophy (Limb Girdle Muscular Dystrophy type 2B (LGMD2B), Miyoshi myopathy and distal myopathy with tibialis anterior onset (DMAT)). We have developed various tools and pipelines that can be applied towards a bioinformatics functional analysis of omics data in muscular dystrophies and neuromuscular disorders. These include: tests for enrichment of gene sets derived from previously published muscle microarray data and networking analysis of functional associations between altered transcripts/proteins. To accomplish this, we analyzed hundreds of published omics data from public repositories. The tools we developed are called CellWhere and MyoMiner. CellWhere is a user-friendly tool that combines protein-protein interactions and protein subcellular localizations on an interactive graphical display (https://cellwhere-myo.rhcloud.com). MyoMiner is a muscle cell- and tissue-specific database that provides co-expression analyses in both normal and pathological tissues. Many gene co-expression databases already exist and are used broadly by researchers, but MyoMiner is the first muscle-specific tool of its kind (https://myominer-myo.rhcloud.com). These tools will be used in the analysis and interpretation of transcriptomics data from dysferlinopathic muscle and other neuromuscular conditions and will be important to understand the molecular mechanisms underlying these pathologies
APA, Harvard, Vancouver, ISO, and other styles
3

Kasap, Server. "High performance reconfigurable architectures for bioinformatics and computational biology applications." Thesis, University of Edinburgh, 2010. http://hdl.handle.net/1842/24757.

Full text
Abstract:
The field of Bioinformatics and Computational Biology (BCB), a relatively new discipline which spans the boundaries of Biology, Computer Science and Engineering, aims to develop systems that help organise, store, retrieve and analyse genomic and other biological information in a convenient and speedy way. This new discipline emerged mainly as a result of the Human Genome project which succeeded in transcribing the complete DNA sequence of the human genome, hence making it possible to address many problems which were impossible to even contemplate before, with a plethora of applications including disease diagnosis, drug engineering, bio-material engineering and genetic engineering of plants and animals; all with a real impact on the quality of the life of ordinary individuals. Due to the sheer immensity of the data sets involved in BCB algorithms (often measured in tens/hundreds of Gigabytes) as well as their computation demands (often measured in Tera-Ops), high performance supercomputers and computer clusters have been used as implementation platforms for high performance BCB computing. However, the high cost as well as the lack of suitable programming interfaces for these platforms still impedes a wider undertaking of this technology in the BCB community. Moreover, with increased heat dissipation, supercomputers are now often augmented with special-purpose hardware (or ASICs) in order to speed up their operations while reducing their power dissipation. However, since ASICs are fully customised to implement particular tasks/algorithms, they suffer from increased development times, higher Non-Recurring-Engineering (NRE) costs, and inflexibility as they cannot be reused to implement tasks/algorithms other than those they have been designed to perform. On the other hand, Field Programmable Gate Arrays (FPGAs) have recently been proposed as a viable alternative implementation platform for BCB applications due to their flexible computing and memory architecture which gives them ASIC-like performance with the added programmability feature. In order to counter the aforementioned limitations of both supercomputers and ASICs, this research proposes the use of state-of-the-art reprogrammable system-on-chip technology, in the form of platform FPGAs, as a relatively low cost, high performance and reprogrammable implementation platform for BCB applications. This research project aims to develop a sophisticated library of FPGA architectures for bio-sequence analysis, phylogenetic analysis, and molecular dynamics simulation.
APA, Harvard, Vancouver, ISO, and other styles
4

Cingolani, Pablo. "Bioinformatics for epigenomics." Thesis, McGill University, 2009. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=40820.

Full text
Abstract:
Epigenetics refers to reversible, heritable changes in gene regulation that occur without a change in DNA sequence. These changes are usually due to methylation of cytosine bases in DNA. In this work we review existing method- ologies and propose new ones for their use in epigenomics. High throughtput methods to estimate methylation levels were developed as well as methods to make a biological interpretation of the data based on gene sets enrichment. High correlation was obtained between our methylation estimations and ex- perimental data from MeDIP experiments. Our proposed methods for gene sets enrichment performed better than well-known methods.<br>L’ ́epigenetique d ́ecrit les changements re'versibles et he'ritables de la r ́egulation g ́enique qui arrivent sans changements dans la s ́equence d’ADN. Ces change- ments sont habituellement dus `a la m ́ethylation de cytosines dans l’ADN. Dans cette th`ese, nous r ́ecapitulons les m ́ethodes bioinformatiques existantes et nous proposons des nouvelles m ́ethodes pour des probl`emes reli ́es `a l’ ́epig ́en ́etique. Les m ́ethodes a haut d ́ebit pour l’estimation du niveau de m ́ethylation sont d ́evelopp ́ees, de mˆeme que des m ́ethodes pour l’interpr ́etation biologique des donn ́ees en se basant sur l’enrichissement d’ensemble de g`enes de la mˆeme fonction. De hauts niveaux de corr ́elation sont obtenus entre nos estim ́es et les donn ́ees exp ́erimentales provenant d’exp ́eriences de type MeDIP. Les m ́ethodes que nous proposons pour l’analyse d’enrichissement de fonction des g`enes performent mieux que les autres m ́ethodes existantes.
APA, Harvard, Vancouver, ISO, and other styles
5

Malatras, Apostolos [Verfasser]. "Bioinformatics tools for the systems biology of dysferlin deficiency / Apostolos Malatras." Berlin : Freie Universität Berlin, 2018. http://d-nb.info/1171431333/34.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Ling, Cheng. "High performance bioinformatics and computational biology on general-purpose graphics processing units." Thesis, University of Edinburgh, 2012. http://hdl.handle.net/1842/6260.

Full text
Abstract:
Bioinformatics and Computational Biology (BCB) is a relatively new multidisciplinary field which brings together many aspects of the fields of biology, computer science, statistics, and engineering. Bioinformatics extracts useful information from biological data and makes these more intuitive and understandable by applying principles of information sciences, while computational biology harnesses computational approaches and technologies to answer biological questions conveniently. Recent years have seen an explosion of the size of biological data at a rate which outpaces the rate of increases in the computational power of mainstream computer technologies, namely general purpose processors (GPPs). The aim of this thesis is to explore the use of off-the-shelf Graphics Processing Unit (GPU) technology in the high performance and efficient implementation of BCB applications in order to meet the demands of biological data increases at affordable cost. The thesis presents detailed design and implementations of GPU solutions for a number of BCB algorithms in two widely used BCB applications, namely biological sequence alignment and phylogenetic analysis. Biological sequence alignment can be used to determine the potential information about a newly discovered biological sequence from other well-known sequences through similarity comparison. On the other hand, phylogenetic analysis is concerned with the investigation of the evolution and relationships among organisms, and has many uses in the fields of system biology and comparative genomics. In molecular-based phylogenetic analysis, the relationship between species is estimated by inferring the common history of their genes and then phylogenetic trees are constructed to illustrate evolutionary relationships among genes and organisms. However, both biological sequence alignment and phylogenetic analysis are computationally expensive applications as their computing and memory requirements grow polynomially or even worse with the size of sequence databases. The thesis firstly presents a multi-threaded parallel design of the Smith- Waterman (SW) algorithm alongside an implementation on NVIDIA GPUs. A novel technique is put forward to solve the restriction on the length of the query sequence in previous GPU-based implementations of the SW algorithm. Based on this implementation, the difference between two main task parallelization approaches (Inter-task and Intra-task parallelization) is presented. The resulting GPU implementation matches the speed of existing GPU implementations while providing more flexibility, i.e. flexible length of sequences in real world applications. It also outperforms an equivalent GPPbased implementation by 15x-20x. After this, the thesis presents the first reported multi-threaded design and GPU implementation of the Gapped BLAST with Two-Hit method algorithm, which is widely used for aligning biological sequences heuristically. This achieved up to 3x speed-up improvements compared to the most optimised GPP implementations. The thesis then presents a multi-threaded design and GPU implementation of a Neighbor-Joining (NJ)-based method for phylogenetic tree construction and multiple sequence alignment (MSA). This achieves 8x-20x speed up compared to an equivalent GPP implementation based on the widely used ClustalW software. The NJ method however only gives one possible tree which strongly depends on the evolutionary model used. A more advanced method uses maximum likelihood (ML) for scoring phylogenies with Markov Chain Monte Carlo (MCMC)-based Bayesian inference. The latter was the subject of another multi-threaded design and GPU implementation presented in this thesis, which achieved 4x-8x speed up compared to an equivalent GPP implementation based on the widely used MrBayes software. Finally, the thesis presents a general evaluation of the designs and implementations achieved in this work as a step towards the evaluation of GPU technology in BCB computing, in the context of other computer technologies including GPPs and Field Programmable Gate Arrays (FPGA) technology.
APA, Harvard, Vancouver, ISO, and other styles
7

Marani, Paola <1970&gt. "From "wet biology" to statistical analysis of structural features with bioinformatics tools." Doctoral thesis, Alma Mater Studiorum - Università di Bologna, 2008. http://amsdottorato.unibo.it/689/.

Full text
Abstract:
Many new Escherichia coli outer membrane proteins have recently been identified by proteomics techniques. However, poorly expressed proteins and proteins expressed only under certain conditions may escape detection when wild-type cells are grown under standard conditions. Here, we have taken a complementary approach where candidate outer membrane proteins have been identified by bioinformatics prediction, cloned and overexpressed, and finally localized by cell fractionation experiments. Out of eight predicted outer membrane proteins, we have confirmed the outer membrane localization for five—YftM, YaiO, YfaZ, CsgF, and YliI—and also provide preliminary data indicating that a sixth—YfaL—may be an outer membrane autotransporter.
APA, Harvard, Vancouver, ISO, and other styles
8

Lee, Anna. "Bioinformatics approaches towards facilitating drug development." Thesis, McGill University, 2011. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=96984.

Full text
Abstract:
Drug development is currently a time-consuming, costly and challenging process. The process typically starts with the identification of a therapeutic target for a given disease. A therapeutic target is some biological molecule and the binding of compounds to target molecules is expected to cause a desired therapeutic effect. That is, target binding compounds have the potential to become drug candidates. However, there is a tendency for many drug candidates to fail during clinical trials, and consequently, very few candidates become approved new drugs. This trend suggests that the early stages of drug development should be improved to provide better drug candidates.The reasons for which a drug candidate may fail during clinical trials include unacceptable toxicity and insufficient efficacy observed in humans. These reasons suggest that the assessments of a compound during the early stages of drug development often inaccurately predict the effect of the compound in humans. One of the main goals of systems biology is to accurately predict how a given biological system responds to perturbations, e.g. treatment with a compound. This suggests that systems biology can help address challenges in drug development. However, there are currently gaps in our knowledge of systems. Here we use machine learning techniques to exploit existing systems data towards filling in these gaps. In particular, we developed a method that uses the occurrences of motifs in protein sequences to predict kinase-substrate interactions. We also developed a method that uses gene expression, protein-protein interaction and phenotype data to predict genetic interactions. These predicted interactions can facilitate the identification of potential therapeutic targets. Ultimately, a better selection of therapeutic targets should lead to better drug candidates.We also address the challenge of developing combinatorial therapies. Despite the fact that combinatorial therapies are advantageous, the scale of the experiments required to search for desirable chemical combinations is currently prohibitive. We therefore developed a method that uses system response data to predict chemical synergies towards facilitating the development of combinatorial therapies.Overall, this thesis shows how computational prediction in a systems biology framework can be used to facilitate and expedite the early stages of drug development.<br>Le développement des médicaments est actuellement un processus coûteux, difficile, et qui prend beaucoup de temps. Le processus commence généralement par l'identification d'une cible thérapeutique pour une maladie spécifique. Une cible thérapeutique est une molécule biologique et l'attachement des composés aux molécules cibles est supposé causer un effet thérapeutique. Donc, les composés qui attachent aux cibles ont le potentiel de devenir des candidats médicaments. Toutefois, beaucoup de candidats médicaments ont tendance à échouer pendant les essais cliniques, et par conséquence, très peu de candidats deviennent nouveaux médicaments approuvés. Cette tendance suggère que les premières étapes du développement de médicaments doit être amélioré afin de fournir des candidats médicaments de meilleure qualité.Les raisons pour lesquelles un candidat médicament peut échouer pendant les essais cliniques incluent une toxicité inacceptable et une éfficacité insuffisante observés chez les humains. Ces raisons suggèrent que les évaluations d'un composé pendant les premières étapes du développement de médicaments mal prédirent l'effet du composé chez les humains. Un des principaux objectifs de la biologie des systèmes est de prédire avec précision comment un système biologique répond à des perturbations, par exemple, un traitement avec un composé. Ceci suggère que la biologie des systèmes peut aider à aborder les défis du développement de médicaments. Toutefois, il existe actuellement des lacunes dans notre connaissance des systèmes. Ici, nous utilisons des techniques d'apprentissage automatique pour exploiter l'information existantes des systèmes pour combler ces lacunes. En particulier, nous avons développé une méthode qui utilise des occurrences des motifs dans les séquences de protéine pour prédire des interactions kinase-substrat. Nous avons aussi développé une méthode qui utilise d'expression des gènes, des interactions entre les protéines et d'information des phénotypes pour prédire des interactions génétiques. Ces interactions prédites peuvent faciliter l'identification des cibles thérapeutiques potentielles. En fin de compte, une meilleure sélection des cibles thérapeutiques devrait entraîner des candidats médicaments de meilleure qualité.Nous avons aussi abordé le défi de développer des thérapies combinatoires. Malgré le fait que les thérapies combinatoires sont avantageuses, l'ampleur des expériences nécessaires à la recherche de combinaisons chimiques souhaitables est actuellement prohibitif. Donc, nous avons développé une méthode qui utilise d'information de réponse des systèmes pour prédire des synergies chimiques en vue de faciliter le développement de thérapies combinatoires.Dans l'ensemble, cette thèse montre comment de calcul de prédiction dans une structure de biologie des systèmes peut être utilisés pour faciliter et accélérer les premières étapes du développement de médicaments.
APA, Harvard, Vancouver, ISO, and other styles
9

Roach, Kenneth L. (Kenneth Lee) 1979. "A microwell array cytometry system for high throughput single cell biology and bioinformatics." Thesis, Massachusetts Institute of Technology, 2009. http://hdl.handle.net/1721.1/47850.

Full text
Abstract:
Thesis (Ph. D.)--Harvard-MIT Division of Health Sciences and Technology, 2009.<br>Includes bibliographical references (p. 91-101).<br>Recent advances in systems biology and bioinformatics have highlighted that no cell population is truly uniform and that stochastic behavior is an inherent property of many biological systems. As a result, bulk measurements can be misleading even when particular care has been taken to isolate a single cell type, and measurements averaged over multiple cell populations in a tissue can be as misleading as the average height at an elementary school. Unfortunately, there are relatively few experimental systems available at present that can provide a combination of single cell resolution, large cell populations, and the ability to track individual cells over multiple time points. Those systems that do exist are often difficult to automate and require extensive user intervention simply to generate the raw data sets for later analysis. The goal of this thesis project was to develop a powerful, inexpensive, and easy-to-use system that meets the above requirements and can serve as a platform for single cell bioinformatics. Our current system design is composed of two basic parts: 1) a customizable PDMS device consisting of one or more microwell arrays, each with associated alignment and identification features, and 2) a suite of custom software tools for automated image processing and data analysis. The system has a number of significant advantages over competing technologies such as flow cytometry and standard image cytometry. Unlike flow cytometry, the cells are not in suspension, and individual cells can be tracked across multiple time points or examined before and after a treatment.<br>(cont.) Unlike most image cytometry approaches, the cells are arranged in a spatially defined pattern and physically separated from one another, greatly simplifying the required image analysis. The automated analysis tools require only a minimal amount of user intervention and can easily generate multi-channel fluorescence time courses for tens of thousands of individual cells in a single experiment. For visualization purposes, tools are provided to annotate the original fluorescence images or movies with the results of later analysis, and several quality control routines are available to identify improperly seeded wells or debris. The microwell array cytometry platform has allowed us to investigate a number of biological problems that would be difficult or impossible to tackle with standard techniques. Our earliest work focused on correlating pre-stress cell states with post-stress outcomes, with a major focus on the cryopreservation of primary hepatocytes. In particular, we wanted to know whether cell survival was dominated by extrinsic factors such as ice crystal nucleation, or intrinsic factors such as the energetic state of the cell. In one set of studies, we found that cells with a high initial mitochondrial content or mitochondrial membrane potential, as measured by Rh123 or JC-1 staining, were significantly less likely to survive the freezing process. This demonstrated that intrinsic cell factors do play a major role in cryopreservation survival, but perhaps more importantly demonstrated the power and versatility of the microwell system by tracking individual cells across a treatment as extreme as freezing the entire device. In another set of cryopreservation experiments, cells were transiently transfected with a GFP-tagged protective protein and the resulting cell population, with its range of expression levels, was used to generate dose response curves with single cell resolution for the protein's protective effect.<br>(cont.) More recently, our efforts have focused on generating single cell fluorescence time courses and using bioinformatics techniques such as hierarchical and k-means clustering to visualize the data and extract interesting features. More specifically, the behavior of primary hepatocytes under oxidative stress and protective metabolic manipulation was examined using a combination of mitochondrial and free radical sensitive dyes. The resulting time courses could not only be compared between the treatment groups, but a number of distinct response patterns could be identified within each treatment group. This variation in response patterns represent potentially important information that would be missed using bulk techniques or flow cytometry. In addition, membership in each response cluster was correlated between multiple dyes and with the initial state of each cell. Using a live / dead methodology, dose response curves, survival curves, and survival time distributions were also generated for each treatment condition and further subdivided based on the initial cell state and cluster assignments. We believe that our microwell array cytometry platform will have general utility for a wide range of questions related to cell population heterogeneity, biological stochasticity, and cell behavior under stress conditions. We have really just begun exploring rich data sets of this type, and with additional work there is a great potential for groundbreaking results in many areas of biology and bioinformatics. Though we have applied techniques from gene expression analysis, there are a number of significant differences between the type of data generated by gene chips and that generated in high-throughput single cell experiments. These differences also make single cell biology a fruitful area for the development of novel bioinformatics techniques and theories.<br>by Kenneth L. Roach.<br>Ph.D.
APA, Harvard, Vancouver, ISO, and other styles
10

Pepin, Francois. "Bioinformatics approaches to understanding the breast cancer microenvironment." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=92240.

Full text
Abstract:
Breast cancer is a complex disease that requires the acquisition of several traits in order to proliferate and spread to nearby and distant tissues. However, many combinations are possible, making it harder to determine their significance. Genome-wide approaches such as gene expression profiling have provided an unbiased and global tool to investigate those traits, allowing investigators to both separate tumors into biologically meaningful categories and then to investigate their features in that context. A well-organized effort is required in order to collect and analyze the large number of samples necessary for such analyses. The Bioinformatics Integrated Application Software represents a way to facilitate both the organization of laboratory manipulation and automating subsequent analyses.<br>A large part of the complexity of breast cancer comes from the different types of cells that constitute the microenvironment and participate in diverse ways to tumor progression. Blood vessels play an important role in tumor progression, as additional vessels are necessary to support tumor growth. However, those new vessels are generally immature and often cannot efficiently provide nutrients to the tumor. This thesis shows that there exist two classes of tumor blood vessels that are associated with vessel maturity and differ in their expression of several antiangiogenic drug targets.<br>Numerous interactions occur between the various components of the tumor microenvironment. Using matched expression profiles of these cell types, it is possible to iden- tify specific processes that involve several cell types, such as Th1 and Th2 immune responses. This first step will open the door to a better mapping of the interactions and signals that occur in breast cancer.<br>Le cancer du sein est une maladie complexe qui requiert l'accumulation de plusieurs caractéristiques avant de pouvoir se multiplier et envahir les tissues rapprochés et éloignés. Plusieurs combinaisons sont par contre possibles, compliquant la tâche de d ́eterminer leurs importances. Les techniques d'analyse sur tout le génome comme l'expression génique sont des outils globaux et non biaisés pour étudier ces caractéristiques. Elle permettent de séparer les tumeurs en groupes biologiquement significatifs et d'étudier leurs caractéristiques dans ce contexte. Un effort concerté est nécessaire pour collecter et analyser la grande quantité de tumeurs requise. Le "Bioinformatics Integrated Application Software" est un système qui permet d'organiser les manipulations de laboratoire et d'automatiser les analyses ultérieures.<br>Une large proportion de la complexité du cancer du sein provient des diff ́erentes espèces de cellules faisant partie du microenvironnement et participant à la progression de la tumeur. Les vaisseaux sanguins jouent un rôle important dans la progression du cancer car des vaisseaux additionels sont nécessaires pour supporter la croissance tumorale. Ces vaisseaux sont par contre généralement immatures et ne peuvent souvent pas alimenter efficacement la tumeur. Cette thèse démontre qu'il existe deux catégories de vaisseaux sanguins tumoraux qui sont associées avec la maturité des vaisseaux et différent dans leur expression de gènes cibles de plusieurs médicaments antiangiogenèses.<br>De nombreuses interactions se produisent entre les différentes composantes du microenvironnement tumoral. L'utilisation de profils d'expressions concordants de différentes espèces cellulaires rend possible l'identification de procédés impliquant plusieurs espèces cellulaires, incluant des réactions immunitaires de types Th1 et Th2. Cette première étape va ouvrir la porte à une meilleure connaissance des échanges de signaux dans le cancer du sein.
APA, Harvard, Vancouver, ISO, and other styles
11

Johnson, Sarah. "Comparative Resistomics of Ancient and Modern Human Microbiomes." Thesis, University of North Texas, 2020. https://digital.library.unt.edu/ark:/67531/metadc1707269/.

Full text
Abstract:
Increased exposure to antibiotics has led to the dissemination of genes conferring resistance to antimicrobial metabolites throughout human microbiomes globally via horizontal gene transfer (HGT). This has resulted in the emergence of new resistant strains leading to a rising epidemic of deaths from previously treatable infections. Evidence suggests that before the age of anthropogenic antibiotic use, microbes living within a community produced antibiotic metabolites and, subsequently, maintained such genes for several useful functions and a balance of diversity in nature. The question of the origin of these resistant genes is difficult to answer, but with continued advancements in ancient genomic analysis, researchers have developed methods of acquiring a more accurate representation of the microbiome associated with our human ancestors by extracting fossilized microbial specimens from dental calculus and directly sequencing the metagenomes. This thesis outlines the production of taxonomic and functional profiles of 20 different human and non-human oral microbiome samples using metagenomics tools originally developed for living individuals, altered for use with ancient microbial specimens. Putative antimicrobial resistant (AMR) genes derived from these profiles were reconstructed and conserved functional regions were identified. From the data that is available regarding the human microbiome from a range of time points throughout history dating back to Neanderthal specimens, it is possible to elucidate relationships between these AMR genes and to better understand the evolutionary trajectory of antibiotic resistance.
APA, Harvard, Vancouver, ISO, and other styles
12

Peng, Zeshan. "Structure comparison in bioinformatics." Click to view the E-thesis via HKUTO, 2006. http://sunzi.lib.hku.hk/hkuto/record/B36271299.

Full text
APA, Harvard, Vancouver, ISO, and other styles
13

Peng, Zeshan, and 彭澤山. "Structure comparison in bioinformatics." Thesis, The University of Hong Kong (Pokfulam, Hong Kong), 2006. http://hub.hku.hk/bib/B36271299.

Full text
APA, Harvard, Vancouver, ISO, and other styles
14

Björkholm, Patrik. "Method for recognizing local descriptors of protein structures using Hidden Markov Models." Thesis, Linköping University, The Department of Physics, Chemistry and Biology, 2008. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-11408.

Full text
Abstract:
<p>Being able to predict the sequence-structure relationship in proteins will extend the scope of many bioinformatics tools relying on structure information. Here we use Hidden Markov models (HMM) to recognize and pinpoint the location in target sequences of local structural motifs (local descriptors of protein structure, LDPS) These substructures are composed of three or more segments of amino acid backbone structures that are in proximity with each other in space but not necessarily along the amino acid sequence. We were able to align descriptors to their proper locations in 41.1% of the cases when using models solely built from amino acid information. Using models that also incorporated secondary structure information, we were able to assign 57.8% of the local descriptors to their proper location. Further enhancements in performance was yielded when threading a profile through the Hidden Markov models together with the secondary structure, with this material we were able assign 58,5% of the descriptors to their proper locations. Hidden Markov models were shown to be able to locate LDPS in target sequences, the performance accuracy increases when secondary structure and the profile for the target sequence were used in the models.</p>
APA, Harvard, Vancouver, ISO, and other styles
15

Nelson, Benjamin K. "WRAPS -- a system for determining the probability of prokaryotic protein annotation correctness." Thesis, University of Nebraska at Omaha, 2013. http://pqdtopen.proquest.com/#viewpdf?dispub=1536042.

Full text
Abstract:
<p> Advances in sequencing technology have resulted in the sequencing of whole genomes from many simple organisms such as fungi and bacteria, while allowing the assembly of much more complex genomes like humans and chimpanzees. Consequently, association of segments of newly sequenced genomes to specific function (i.e. annotation) is being completed by comparative study of protein coding regions from previously annotated genome data. While this is an ideal procedure to process and annotate huge number of available genomic sequences, this approach can potentially lead to propagating erroneous annotation in a public sequence repository and vastly diminish the integrity of these new annotation of genome sequences. In this project, the WRongly Annotated Protein identification System (WRAPS) has been created to analyze previously annotated proteins quickly and efficiently. The likeliness that the protein is correctly annotated is determined by weighted scoring schema based on conservation of protein domain, the domains present in different reading frames, and isoelectric point. A study of 88,023 proteins of Yersinia, Staphylococcus, and Bacillus using WRAPS show that there are several proteins that can be considered wrongly annotated, as well as the correctness of annotation among these proteins. </p>
APA, Harvard, Vancouver, ISO, and other styles
16

Sanchez, Galan Frauca Javier. "Large scale identification of transcription factor binding sites in DNA sequences." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=86960.

Full text
Abstract:
To date, gene regulation is still one of the most studied processes in molecular biology. Among its main actors, proteins called transcription factors, play an essential role in controling the rate of expression of genes, by binding to specific sites on the DNA sequence. These sites are short in lenght (5 to 15 basepairs) and are called transcription factor binding sites (TFBSs). These interactions between proteins and DNA have a fundamental role at several stages of cell development and in response to stress conditions. Various computational methods that exploit specific characteristic of TFBS have been developed and tested for the purpose of the identification of TFBSs. Examples include, the identification of TFBSs via phylogenetic footprinting, via cis-regulatory modules and via statistical over-representation.<br>In this thesis we present a new approach that uses elements of the three identification methods to develop a large-scale approach that assesses the over-representation of TFBS in DNA sequences. Results of application of this new method are presented for five biological datasets: including a set of regions bound by estrogen receptor (ER). We also present new results, yet to be validated experimentally, from two interesting biological datasets. The first is a dataset containing coding regions under non-coding selection (called CRUNCS). The other is a set of genes regulated by proteins called angiopoietins.<br>Finally, a new public bioinformatic software, used to estimate the over-representation of TFBSs in DNA sequences, that we call the Genome-Wide Analysis of TFBS Over- Representation (GATOR), is introduced.<br>À ce jour, la régulation des gènes est encore l'un des processus les plus étudiés en biologie moléculaire. L'une de ses principales categories d'acteurs, des protéines appelées facteurs de transcription, joue un rôle essentiel dans le contrôle du taux d'expression des gènes, en se liant à des sites spécifiques sur la séquence d'ADN. Ces sites sont des séquences courtes (de 5 à 15 paires de bases) et sont communément appelés sites de liaison pour les facteurs de transcription (TFBSs, en anglais). Les interactions entre ces protéines et l'ADN jouent un rôle fondamental à plusieurs stades du développement cellulaire et de la réponse à divers types de stress. Diverses méthodes de calcul qui exploitent les caractéristiques spécifiques des TFBS ont été développées et testées dans le but de l'identifier de tels sites de liaison. Citons par ex- emple l'identification des TFBS à l'aide des empreintes phylogénétiques, des modules de régulation cis et de la sur-représentation statistique.<br>Dans cette thèse nous présentons une nouvelle approche qui utilise des éléments des trois méthodes d'identification susmentionnés pour développer une approche à grande échelle qui évalue la sur-représentation des TFBS, dans les séquences d'ADN. Les résultats de l'utilisation de cette nouvelle méthode sont présentés pour cinq ensembles de données biologiques. Parmi eux, un ensemble des régions de sites de liaison liées aux récepteurs d'oestrogène (ER), un ensemble de données qui contient des régions codantes sous sélection non codante (appelé CRUNCS) et finalment, un ensemble de génes régulés par des protéines appelées angiopoietines.<br>Finalement, nous présentons un nouveau logiciel bioinformatique public qui sert à estimer la sur-représentation des TFBSs dans les séquences d'ADN et que nous avos appelé le Genome-Wide Analysis of TFBS Over-Representation (GATOR).
APA, Harvard, Vancouver, ISO, and other styles
17

Mongin, Emmanuel. "An evolutionary approach to long-range regulation." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=92333.

Full text
Abstract:
Long-range regulatory regions play important functions in the regulation of transcription and are particularly involved in the precise spatio-temporal expression of target genes. Such regions have specific characteristics, among which is their ability to regulate many target genes that can be located up to 1Mb from the transcription start site. The prediction and functional characterization of such regions remains an open problem. Evolutionary approaches have been developed to detect regulatory regions that are under purifying selection. However, little has been done with regards to the impact of long-range regulation on genome evolution.<br>This thesis focuses on three different aspects of long-range regulation: i/ First we develop a method that predicts regions particularly prone to the fixation of evolutionary breakpoints. We discuss the results obtained in the context of long-range regulation and show that this type of regulation is a major factor shaping vertebrate genomes in evolution. ii/ The second project aims at predicting functional interactions between regulatory regions and target genes based on the observation of evolutionary rearrangements in various vertebrate species. We show how this approach produces a biologically meaningful prediction dataset that will be useful to researchers working on regulation. iii/ Third, we focus on the in vivo characterization of regulatory regions. We present a powerful and reliable enhancer detection pipeline composed of an in silico approach to predict putative enhancers and an in vivo method to functionally characterize the expression specificity of predicted regions in the developing medaka fish.<br>The results presented in this thesis contribute to different areas of research such as a better understanding of evolutionary dynamics related to evolutionary rearrangements and to a better in silico and in vivo characterization of cis-regulatory regions.<br>La régulation longue distance a d'importantes fonctions dans la régulation de la transcription et est particulièrement impliquée dans la régulation spatiale et temporelle des gènes cibles. Ces régions ont des caractèristiques spécifiques telles que la capacité de contrôler different gènes à des distances jusqu'a 1Mb du site d'initiation de la transcription. La prédiction et la caractérisation fonctionelle de ces regions restent un problème d'actualité. Des approches évolutionaires ont été d´eveloppées pour détecter les régions sous pression de sélection. En revanche, peu a été fait en rapport avec l'impact de la régulation de longue distance sur l'évolution du génome.<br>Cette thèse se concentre sur trois differents aspects de la régulation longue distance: i/ Premièrement, nous developpons une méthode de prédiction des regions particulièrement sujettes à la fixation des réarrangements de l'évolution. Nous étudions les résultats obtenus dans le contexte de la régulation longue distance et nous montrons que ce type de régulation est un composant majeur dans le façonnement du génome au cours de l'évolution. ii/ Le second projet à pour but de prédire les interactions fonctionnelles entre les régions de régulation et leur gènes cible à partir de l'observation de réarrangements de l'évolution dans differentes espèces. Nous montrons comment une telle approche produit des resultants biologiquement significatifs qui seront particulièrement utiles aux chercheurs travaillant dans le domaine de la régulation. iii/ Troisièmement, nous nous concentrons sur la caractérisation fonctionnelle in vivo des regions régulatrices. Nous présentons une méthode fiable de détection des enhancers composée d'une approche informatique pour la prédiction de ces régions et d'une approche biologique pour caractériser fonctionnellement les spécificités d'expression de ces régions dans le poisson medaka.<br>Les résultats présentés dans cette thèse contribuent à une meilleure comprehension des dynamiques d'évolution en relation avec la régulation longue distance et une meilleure prédiction et caractérisation fonctionnelle de ces régions régulatrices.
APA, Harvard, Vancouver, ISO, and other styles
18

Hoen, Douglas. "Coevolution of transposable elements and plant genomes by DNA sequence exchanges." Thesis, McGill University, 2012. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=107660.

Full text
Abstract:
Transposable elements (TEs) are self-replicating genetic elements that comprise a large portion of all characterized nuclear genomes. Self-replication, which is catalyzed by proteins encoded by autonomous TEs, permits TEs to persist without necessarily providing immediate adaptive benefit to the organism; therefore, TEs are sometimes characterized as selfish, parasitic, or junk DNA. Nevertheless, over the course of evolution, TEs have produced diverse and vital eukaryotic adaptations. One way in which TEs coevolve with ordinary genes is by direct sequence exchange: TEs can duplicate and mobilize ordinary genes; conversely, TE-derived sequences can become conserved as ordinary genes. In this thesis, I use genome-scale bioinformatic analyses to identify direct sequence exchanges from plant genomes to TEs, and vice versa, and to characterize their functional and evolutionary consequences. After reviewing the literature, I first examine Mutator-like elements (MULEs) in rice that have duplicated and mobilized thousands of ordinary coding gene fragments, a process we term transduplication. Contrary to a previous report, these sequences do not appear to produce functional proteins, although they may have regulatory functions. Second, I examine a gene family that appears to have originated through transduplication in Arabidopsis thaliana MULEs, which is conserved within TEs, called Kaonashi (KI). KI shows that transduplication does occasionally produce functional gene duplications; however, at least in this case, the result is a not a new ordinary gene, but a new TE gene. Finally, I examine ordinary genes in A. thaliana derived from TE genes, a process termed molecular domestication. In addition to 3 previously known A. thaliana domesticated transposable elements (DTEs) families, I identify 23 candidate novel families. Together, these results support the view that, despite persisting by self-replication, TEs are not molecular parasites but are integral components of eukaryotic genomes.<br>Les éléments transposables (ET) sont des séquences d'ADN capables de se déplacer et de s'autoreproduire dans un génome, un mécanisme appelé transposition. Ces éléments représentent l'une des composantes les plus importantes des génomes nucléaires eucaryotes. Cette capacité à s'autoreproduire, grâce aux protéines codées par les ET autonomes, a permis aux ET de persister et de peupler les génomes sans nécessairement apporter un avantage adaptatif immédiat à l'organisme hôte. À cet égard, les ET sont parfois considérés comme des éléments égoïstes ou parasites, ou de l'ADN « poubelle ». Néanmoins, les ET ont joué un rôle important au cours de l'évolution en générant diverses adaptations essentielles aux eucaryotes. Ainsi, les ET peuvent coévoluer avec les gènes du génome hôte par l'échange direct de séquence d'ADN. Les ET peuvent se dupliquer et mobiliser des gènes hôtes ; à l'inverse, des séquences d'ADN dérivées de ET peuvent avoir le même niveau de conservation que des gènes hôtes. Dans le cadre de ma thèse, j'ai utilisé des analyses bio-informatiques à l'échelle du génome afin d'identifier des échanges directs de brins de séquence d'ADN à partir de génomes de plantes vers les ET, et vice-versa, et de caractériser leurs fonctions et leurs effets évolutifs. Ma thèse débutera par une recension des diverses publications scientifiques dans le domaine. Je dresserai ensuite un portrait des éléments mobiles Mutator-like (MULE) dans le génome du riz qui ont entraîné la duplication et la mobilisation de milliers de fragments de gènes codants normaux, un procédé appelé transduplication. Contrairement à ce qui avait été rapporté dans des publications antérieures, ces séquences transdupliquées ne semblent pas produire des protéines fonctionnelles malgré le fait qu'elles puissent avoir des fonctions régulatrices. En second lieu, j'examinerai une famille de gènes, appelée Kaonashi (KI), qui proviendrait d'un événement de transduplication présent dans les MULE de l'Arabidopsis thaliana, mais également conservé dans les ET. La présence de la famille KI nous montre que le procédé de transduplication permet à l'occasion des duplications fonctionnelles de gènes. Cependant, du moins dans le cas de la KI, le procédé n'entraîne pas la création d'un nouveau gène normal, mais bien d'un nouvel élément transposable. En troisième lieu, j'examinerai les gènes hôtes présents dans le génome de la plante A. thaliana qui proviendrait de ET, un procédé appelé domestication moléculaire. En plus des trois cas de familles d'éléments transposables domestiquées (ETD) déjà connues dans l'espèce A. thaliana, j'ai identifié 23 nouvelles familles potentielles. L'ensemble de ces résultats tend à démontrer que, malgré le fait qu'ils persistent dans les génomes grâce à leur capacité d'autoreproduction, les ET ne sont pas des parasites moléculaires, mais bien des éléments clés faisant partie intégrale des génomes eucaryotes.
APA, Harvard, Vancouver, ISO, and other styles
19

De, Lima Morais David. "Analysis of the relationship between gene structure, coding ability and nonsense-mediated decay in mamals." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=95132.

Full text
Abstract:
Non-coding mRNAs have been, until recently, regarded as functionless products of junk DNA. However, large-scale genomic studies have enabled us to unveil complex pathways that depend on non-coding mRNAs. In this thesis, I developed a pipeline to perform large scale analysis of non-coding sequences in mammals. In Chapter II, we gathered evidences of a non-random population of pseudogenic duplicated exons (ΨEs, i.e., exons disabled by frameshifts and premature stop codons) in four mammalian genomes: human, mouse, rat and cow. I observed a consistent population of ΨEs, associated with 0.4–1.0% of genes. These ΨE populations exhibit codon substitution patterns that are typical of an endemic population of decaying sequences. Also, ΨEs are more often associated with functional categories such as 'ion binding' and 'nucleic-acid binding' than duplicated exons in general. We also found that ΨEs can participate in alternative splicing events and are not randomly distributed within the gene structure. Pseudogenic exons may function in gene regulation through generation of transcribed pseudogenes, or regulatory alternative transcripts. To further investigate the role of non-coding mRNA, we mapped more than 16 millions EST/mRNAs to genomic sequences in order to identify alternative splice forms (AS) that can be target for mRNA nonsense-mediated decay (NMD) in the same four mammalian species (Chapter IV). We found that at least 10% of the mammalian genes have an alternative splice form targeted for NMD (AS-NMD candidate). More than 25% of the genes with an AS-NMD candidate in mouse, rat and cow also have an ortholog in human that is target for NMD. This highly significant trend clearly suggests that these AS-NMD candidates have a regulatory conserved function across these species. The AS-NMD candidates also showed a similar pattern of gene ontology enrichment in all four species. Furthermore, we mapped the AS-NMD candidates to mass spectrometry-derived proteomics data.<br>Les ARNms non-codants ont été, depuis récemment, considéré comme des produits non-fonctionnels de l'ADN génomique sans fonction codante (DNA junk). Cependant, des études génomiques à grande échelle nous ont permis de dévoiler des sentiers (chemins) complexes qui dépendent de séquences d'ARNm non-codant. Dans cette thèse, nous développons une méthodologie afin de produire des analyses à grande échelle de séquences non codantes chez les mammifères. Dans le Chapitre II, nous avons ramassé des preuves d'une population non aléatoire d'exons pseudogéniques dupliqués (ΨEs, i.e., exons invalidés par des décalages de trame (frameshifts) et des codons d'arrêt prématurés) dans quatre génomes mammaliens: humain, souris, rat et vache. Nous avons observés une population consistante de ΨEs associée avec 0.4-1.0% des gènes. Ces populations ΨE présentent des modèles de substitution de codons qui sont typiques d'une population endémique de séquences en dégénérescence. De plus, les ΨEs sont plus souvent associés avec des catégories fonctionnelles telles que des liaisons ioniques et des liaisons d'acides nucléiques que des exons dupliqués en général. Nous avons également constaté que les ΨEs peuvent participer à des événements alternatifs d'épissage et ne sont pas distribués aléatoirement dans la structure du gène. Les exons pseudogéniques peuvent fonctionner dans la régulation des gènes à travers la génération de pseudogènes transcrits, ou de transcrits alternatifs régulateurs. Afin d'investiguer davantage le rôle d'ARNm non-codant, nous avons cartographié plus de 16 millions de EST/mRNAs a des séquences génomiques afin d'identifier des formes alternatives d'épissure ou alternative splice forms (AS) qui peuvent être la cible pour l'ARNm non-sens dégradé ou mRNA nonsense-mediated decay (NMD) dans les mêmes quatre espèces mammaliennes (Chapitre IV). Nous avons découvert qu'au moins 10% des gènes mammalien
APA, Harvard, Vancouver, ISO, and other styles
20

Shateri, Najafabadi Hamed. "A systems approach towards a functional annotation of the genome of Trypanosoma brucei." Thesis, McGill University, 2012. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=106493.

Full text
Abstract:
The pathogenic species of trypanosomatids, including Trypanosoma brucei, T. cruzi, and Leishmania spp, cause serious human as well as animal diseases, with a very high incidence and mortality rate if untreated. Although the genome sequences of several trypanosomatids have been known for several years, many aspects of gene function and gene regulation are still unclear in these organisms. Most importantly, the lack of similarity between the majority of their genes and characterized genes of other organisms has limited our understanding of the gene functions in trypanosomatids. Not only the functions of many genes are unknown, the factors that are involved in their regulation are mostly uncharacterized. Trypanosomatids primarily rely on post-transcriptional programs for regulation of gene expression, and transcriptional regulation is of least importance. The genomes of these organisms harbour a large number of RNA-binding proteins with potential role in regulating mRNA stability and translation; however, the sequence specificity of these RNA-binding proteins and their function is mostly unknown. The focus of this thesis is on development of new methods for homology-independent functional characterization of genes in trypanosomatids, and deciphering the programs that are involved in their regulation. First, I describe a novel universal relationship between codon usage and gene function, and show the utility of this relationship for functional characterization of genes in various organisms, including trypanosomatids. This relationship most probably points to the role of codon usage in dynamic regulation of protein expression in different conditions, and helps the cell to adapt to new environments and conditions by synchronously regulating proteins with required functions. Then, I introduce a computational approach for identification of function-specific cis-acting regulatory elements, and demonstrate the utility of this approach for identification of potential regulatory elements in trypanosomatids, as well as for prediction of gene function based on the flanking regulatory sequences. I also show that combination of cis-regulatory elements and codon usage is a strong predictor of gene function in trypanosomatids. In addition to these methods, which can identify biological processes and pathways, a new method for identification of protein molecular functions based on short sequence signatures is introduced in this thesis. I show that this new method is able to identify function-specific protein short motifs that present functional sites on proteins, and demonstrate the utility of these motifs in predicting protein molecular function in trypanosomatids. In addition to these sequence-based approaches, I also explore the possibility of predicting trypanosomatid gene functions based on co-expression. I present the first co-expression network of T. brucei, which is constructed by combining several microarray datasets from different studies, and use it for predicting new components of several essential pathways in this organism. This analysis suggested the presence of a conserved post-transcriptional regulatory network in trypanosomatids, which encouraged us to develop a novel framework for identification of regulatory programs with high network-level conservation across multiple species. This framework revealed an extensive set of conserved regulatory programs in trypanosomatids, many of which could be validated using available expression datasets as well as our microarray profiles of chemical perturbations. The studies described here contribute significantly to functional annotation of genes in trypanosomatids, and identify the regulatory mechanisms that govern gene expression in these organisms. Furthermore, the introduced methods can be used for functional annotation of many uncharacterized genes and identification of gene regulatory programs in virtually all organisms with available genome sequences.<br>Les espèces pathogènes de l'ordre des trypanosomatida, incluant Trypanosoma brucei, T. cruzi, et différentes espèces de Leishmania sont responsables de sérieuses maladies humaines et animales, avec une très forte incidence et taux de mortalité élevé lorsque non soignées. Bien que les génomes de plusieurs trypanosomatida soient disponibles depuis plusieurs années, de nombreux aspects de la fonction et de la régulation génique restent inexplorés chez ces organismes. Les trypanosomatida se reposent principalement sur des mécanismes post-transcriptionels pour la régulation de l'expression génique, et la régulation de la transcription n'a que peu d'importance. Les génomes de ces organismes hébergent un grand nombre de protéine se liant à l'ARN avec des rôles potentiels dans la régulation de la stabilité et de la traduction des ARNm. Néanmoins, les séquences spécifiques de ces protéines se liant à l'ARN et leurs fonctions restent principalement méconnues. L'objectif de cette thèse se situe au niveau du développement de nouvelles méthodes indépendantes de l'homologie pour permettre la caractérisation fonctionnelles de gènes chez les trypanosomatida, et de déchiffrer les mécanismes impliqués dans cette régulation. Premièrement, je décris une nouvelle relation universelle entre l'utilisation des codons et la fonction génique, et montre l'utilité de cette relation pour la caractérisation de gènes dans divers organismes, incluant les trypanosomatida. Cette relation pointe probablement vers un rôle de l'utilisation des codons dans la régulation dynamique de l'expression protéique sous diverses conditions, et aide la cellule à s'adapter à de nouveaux environnements et conditions en synchronisant la régulation des protéines avec les fonctions requises. J'ai introduis une approche computationnelle pour l'identification d'éléments cis-régulateurs fonction-spécifiques et démontré l'utilité de cette approche pour l'identification d'éléments régulateurs potentiels chez les trypanosomatida, ainsi que pour la prédiction de fonctions géniques basées sur les séquences régulatrices flanquantes. En plus de ces méthodes, qui peuvent identifier biologiquement des phénomènes et des voies métaboliques, une nouvelle procédure pour l'identification des fonctions moléculaires des protéines, basée sur de courtes signatures de séquences, est introduite dans cette thèse. Outre cette approche basée sur les séquences, j'explore également la possibilité de prédire la fonction de certains gènes des trypanosomatida en me basant sur la co-expression. Je présente le premier réseau de co-expression de T. brucei, élaboré en combinant plusieurs jeux de données de microarray provenant de différentes études, et les utilise pour prédire de nouveaux éléments de multiples voies métaboliques essentielles dans cet organisme. Cette analyse suggère la présence de réseaux post-transcriptionels conservés chez les trypanosomatida, ce qui nous encourage à mettre au point un nouveau cadre expérimental pour l'identification de mécanismes régulateurs avec un fort niveau de conservation au sein de multiples espèces. Ce cadre expérimental a révélé une somme importante de mécanismes régulateurs conservés chez les trypanosomatida, dont beaucoup pourraient êtres validés en utilisant des données d'expression disponibles ainsi qu'avec des profils de perturbations chimiques de microarrays. Les études décrites ici contribuent significativement à l'annotation génique fonctionnelle chez les trypanosomatida, et permet d'identifier des mécanismes de régulation qui gouvernent l'expression génique de ces organismes. De plus, les méthodes introduites peuvent être utilisée pour l'annotation fonctionnelle de nombreux gènes non-caractérisés et l'identification de programmes de régulation génique dans virtuellement n'importe quel organisme dont le génome est disponible.
APA, Harvard, Vancouver, ISO, and other styles
21

Lesurf, Robert. "Molecular pathway analysis of mouse models for breast cancer." Thesis, McGill University, 2009. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=32499.

Full text
Abstract:
Human breast cancer is an extremely heterogeneous disease, consisting of a number of different subtypes with varying levels of aggressiveness reflected by distinct, but largely undefined, molecular profiles. Here we have analyzed several novel mouse models for breast cancer in the context of the human subtypes, and have shown parallels between the mice and humans at numerous biologically relevant levels. In addition, we have developed a statistical framework to help elucidate the individual molecular components that are at play across a panel of human breast or murine mammary tumors. Our results indicate that, while no mouse model captures all aspects of the human disease, they each contain components that are shared by a subset of human breast tumors. Furthermore, our statistical framework provides numerous advantages over previous methodologies, in helping to reveal the individual molecular pathways that make up the biology of the tumors.<br>Le cancer du sein est connue pour être une maladie très hétérogène, composé d'un nombre de différents sous-types avec différents niveaux de l'agressivité et distinctes, mais indéfini, profils moléculaires. Ici, nous avons analysé plusieurs nouveaux modèles de souris pour le cancer du sein, dans le cadre des sous-types, et nous avons trouver des parallèles à un certain nombre de niveaux pertinents biologiques. En outre, nous avons développé une méthodologie statistique pour aider à élucider les différents composants moléculaires qui sont à jouer dans un groupe de tumours de sein d'humains ou mammaires murins. Nos résultats indiquent que, même si aucun modèle de souris capte tous les aspects de la maladie chez l'homme, chacun contiennent des composants qui sont partagées par un sous-ensemble de tumeurs mammaires humaines. En outre, notre outil statistique offre de nombreux avantages par rapport aux précédentes méthodes, pour aider à révéler les voies moléculaires qui composent la biologie des tumeurs.
APA, Harvard, Vancouver, ISO, and other styles
22

Mansouri, Ahmad. "Computational modeling of osteopontin peptide binding to hydroxyapatite." Thesis, McGill University, 2011. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=104546.

Full text
Abstract:
Osteopontin (OPN), a secreted, noncollagenous, acidic, and mineral-binding phosphoprotein, is composed of 314 amino acids (in humans), mostly composed of glutamate, aspartate and serine. It is prominently associated with biominerals and has a regulatory effect on hydroxyapatite (HAP) crystal growth, the mineral phase of bones and teeth. Recent studies have revealed that OPN contains an acidic, serine- and aspartate-rich motif (ASARM), which potently inhibits mineralization of osteoblast cultures in a phosphate-dependent manner. ASARM peptides accumulate in hypophosphatemia patients whose distinguishing clinical feature is soft bones (osteomalacia). To understand the mechanism of how OPN and the acidic and negatively charged peptides from OPN inhibit the mineralization process by adsorbing to HAP crystal surfaces, we modeled the binding by computational studies. Computational simulations allow for assessing the mechanism by which polyelectrolytes, such as OPN and its peptides, can inhibit mineralization. We used the RosettaSurface protocol to examine human OPN-ASARM peptide (DDSHQSDESHHSDESDEL) binding to flat surfaces of HAP mineral and determined binding affinities, specificities, and structure for ASARM-Sp0 (without phosphoserine) and two phosphorylated forms of ASARM (ASARM-Sp3 and ASARM-Sp5, with 3 and 5 phosphoserines, respectively). Our simulations show an increase in adsorption of ASARM to HAP when the peptide is phosphorylated. Moreover, ASARM and its phosphorylated counterparts show preferential adsorption to the (100) and (010) crystallographic orientations of HAP compared to the (001) orientation.Beside the "flat" surfaces of the HAP crystal, "active sites" such as steps, kinks, and vacancies play deterministic roles in adsorption of foreign molecules and ultimately affect the process of crystal growth. We examined phosphorylated ASARM (DDSpHQSDESHHSpDESpDEL / ASARM-Sp3) binding to HAP mineral with and without vacancies to determine the following: the changes in binding affinity attributable to the phosphate vacancies, the effect of vacancies' geometry in adsorption of the peptide, and the structural changes of ASARM-Sp3 upon adsorption to these surfaces. Our results suggest that the presence of phosphate vacancies on (100) surface increases the adsorption energies of ASARM-Sp3 more than two-fold, and the increase in adsorption energies is related to the number of vacancies available on the surface. The adsorption on the surfaces was mostly mediated through ASARM-Sp3 phosphate groups, which were oriented towards the phosphate vacancies of the crystal surface. In addition, different geometry of the phosphate vacancies was shown to have influence in changing the adsorption energies of ASARM-Sp3. These results indicate that "active sites" present on the surface of a growing crystal can influence the adsorption of biological molecules. More specifically, peptides such as ASARM-Sp3 have side chains (phosphate groups) that can fill the vacancies (phosphate vacancies), driving their adsorption.<br>L'ostéopontine (OPN), une phosphoprotéine acide secrétée non collagénique, est composée de 314 acides aminés (chez les humains). Elle est constituée principalement de glutamate, l'aspartate et de serine. L'ostéopontine est associée avec des biominéraux et a un effet régulateur sur la croissance de cristaux hydroxyapatite (HAP), la phase minérale des os et des dents. De récentes recherches ont révélé que l'OPN contient un motif acide, riche en sérine et en aspartate (ASARM), qui peut fortement inhiber la minéralisation des cultures d'ostéoblastes en dépendance de phosphates. Les peptides ASARM s'accumulent dans les patients souffrant d'hypophosphatémie, ayant comme symptôme des os souples (ostéomalacie). Afin de comprendre le mécanisme par lequel l'OPN et les peptides charges négativement de l'OPN inhibe le processus de minéralisation par l'adsorption aux surfaces cristallines HAP, nous avons modélisé les liaisons par une étude de simulations computationnelles. Ces simulations nous permettent de déterminer le mécanisme par lequel les poly électrolytes (OPN et ses peptides) inhibent le processus de minéralisation. Nous avons utilise le protocole RosettaSurface pour examiner la liaison du peptide OPN-ASARM (DDSHQSDESHHSDESDEL) aux surfaces planes d'un minéral HAP. Plus précisément, nous avons observe les affinités, les spécificités de liaison ainsi que la structure de ASARM-Sp0 (sans phosphosérine) et deux formes phosphorylées de ASARM (ASARM-SP3 et ASARM-SP5, possédant 3 et 5 phosphosérines respectivement). Nous simulations indiques une augmentation de l'adsorption d'ASARM pour le HAP lorsque le peptide est phosphorylé. De plus, ASARM et ses versionsivphosphorylées montres une adsorption préférentielle aux orientations cristallographiques de HAP (100) et (010) comparé à l'orientation (001). Mis à part la surface plane du cristal HAP, des « sites d'activité », tels que des paliers, des crevasses ainsi que des vides jouent un rôle critique dans l'adsorption de molécules étrangères, affectant le processus de croissance des cristaux. Nous avons examine la liaisons entre un ASARM phosphorylé (DDSpHQSDESHHSpDESpDEL / ASARM-Sp3) et un minéral HAP avec et sans vide. Nous en avons déterminé les changements dans l'affinité de liaison attribuables au manque de phosphate, les effets des vides dans la géométrie pour l'adsorption du peptide ainsi que les changements de structure de l'ASARM-Sp3 lors de l'adsorption à ces surfaces. Nos résultats suggèrent que la présence de vides sur la surface (100) augmente l'énergie d'adsorption d'ASARM-Sp3 par plus de deux fois, et l'augmentation de l'énergie d'adsorption est lie au nombre de vides disponibles sur la surface. L'adsorption sur ces surfaces est assurée a traves les groupes phosphate d'ASARM-Sp3, orientes vers les vides phosphates de la surface du cristal. De plus, différentes géométries des vides de phosphate semblent avoir une influence sur le changement de l'énergie d'adsorption de ASARM-Sp3. Ces résultats indiquent que les sites actifs présents sur la surface d'un cristal en croissance peut influencer l'adsorption de molécules biologiques. Plus précisément, des peptides tels que ASARM-Sp3 ont des chaines secondaires (groupes phosphates) qui peuvent combler les vides (vides phosphates), entrainant leur adsorption.
APA, Harvard, Vancouver, ISO, and other styles
23

Sabry, Nadia Hesham. "Implications of host ULP1-like domains in DNA transposons." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=86634.

Full text
Abstract:
Transposable elements are known to occasionally capture host genetic material. In the case of DNA transposons, such transduplications result in pseudogenic sequences that are eventually lost. An exception is the conserved transduplicated ubiquitin-like-specific protease 1 (ULP1)-like conserved domain (CD) previously described in Kiaonashi (KI) and other MULE (Mutator) transposons, its conservation suggesting it confers an advantage to the transposons and/or their hosts. In the present study, we describe and characterize a previously unreported ULP1-like domain (ONI) found in the Rim2/Hipa transposons of the CACTA superfamily in rice. We show that ONI is conserved amongst the elements, is more related to the KI domain in Arabidopsis than to host gene ULP1 CDs, is most closely related to ULP1 CDs recently found in grapevine CACTA elements and was most likely independently acquired in each of the CACTA and MULE transposons lineages. The discovery of a new conserved ULP1-like transduplicated domain in a different DNA transposon superfamily than previously supports the proposal that the ULP1- CD containing genes in these transposons contribute an evolutionary advantage benefit to the transposons. This suggests that transduplication may be then an evolutionarily significant mechanism for transposons, providing a source of diversity.<br>Des éléments transposables sont connus pour capturer de temps en temps le matériel génétique de leur hôte. Dans le cas des transposons d'ADN, de tels transduplications ont comme conséquence des pseudogênes qui sont par la suite perdus. Une exception est le domaine transduplicaté conservé d'ULP1 précédemment décrit dans Kionashi (KI) et d'autres transposons de MULE, sa conservation le suggérant confère un avantage aux transposons et/ou à leurs hôtes. Dans la présente étude, nous décrivons et caractérisons un domaine précédemment non rapporté d'ULP1 (ONI) trouvé dans les transposons de Rim2/Hipa du famille superbe de CACTA en riz. Nous prouvons qu'ONI est conservé parmi les éléments, davantage est lié au domaine de KI dans Arabidopsis qu'aux domaines conservés (DC) du gène ULP1 de l'hôte, le plus étroitement est lié aux DC ULP1 récemment trouvés dans des éléments de la vigne CACTA et était le plus susceptible indépendamment acquis dans chacun des lignées de CACTA et de MULE de transposons. La découverte d'un nouveau domaine transduplicaté par ULP1 conservé dans un super-famillie différent de transposon d'ADN qu'appuie précédemment la proposition que les gènes contenant du DC d'ULP1- dans ces transposons contribuent un avantage évolutionnaire avantageux aux transposons. Ceci suggère que le transduplication puisse être alors un mécanisme évolutionnaire significatif pour des transposons, fournissant une source de diversité.
APA, Harvard, Vancouver, ISO, and other styles
24

Mokin, Sergey. "Measuring deviation from a deeply conserved consensus in protein multiple sequence alignments." Thesis, McGill University, 2008. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=21956.

Full text
Abstract:
Proteins across species show variable degrees of conservation. Different patterns of conservation in the columns of an alignment indicate different evolutionary pressures on sequences. Protein conservation analysis is useful for a wide variety of applications, including disease mutation assessment, pseudogene analysis and functional residue prediction. This study describes a novel measure of column conservation in protein multiple sequence alignments (‘MSA'), and the application of this measure to calculate statistical deviation from alignment consensus (‘SDAC'). We have assessed SDAC for two case studies of sequences: (a) putative pseudogenes in Mycobacteria, and (b) young lineage-specific retrotransposed sequences in the human and mouse genomes. In the procedure, we rank residue positions for deep conservation, and evaluate statistically significant violations from MSA consensus. Novel conservation measure clearly indicated a variable degree of physiochemical conservation for a given column entropy. That, in turn, enabled us to detect deviations from physiochemical consensus in a protein MSA, which are not found by entropy measures.<br>D'une espèce à l'autre, des variations peuvent survenir dans la composition des protéines. Les tendances suivies par les colonnes d'un alignement de séquences multiples reflètent les différentes pressions évolutionnaires imposes sur les séquences. Les analyses de conservation de protéines sont utiles à plusieurs fins, comme dans l'évaluation des mutations de maladies, l'analyse de pseudogenes ainsi que les prédictions fonctionnelles de résidus. Cette étude décrit une nouvelle mesure de conservation de colonnes pour les analyses d'alignement de séquences multiples. De plus, nous décrivons l'utilisation de cette nouvelle mesure pour calculer la déviation statistique avec un consensus d'alignement. Nous avons utilisé cette mesure pour deux études cas de séquence : (a) Celle de pseudogenes putatifs du Mycobactérie, et (b) Celle de jeunes séquences spécifiques a certains lignages rétrotransposés dans les génomes humains et souris. Ce faisant, nous avons classifié les positions de résidus hautement conservés et avons évalué les cas ou d'importantes variations existent avec les consensus des alignements de séquences multiples. Cette nouvelle échelle de conservation indique qu'il existe un degré variable de conservation physiochimique pour une entropie fixe des colonnes. En retour, ceci nous permet de détecter les variations physiochimiques des consensus d'une colonne qui ne serait autrement pas détecté par des mesures d'entropie.
APA, Harvard, Vancouver, ISO, and other styles
25

Gosline, Sara. "A systems biology approach to understanding the role of the endoplasmic reticulum in human disease." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=94997.

Full text
Abstract:
The endoplasmic reticulum (ER) is a cellular organelle responsible for lipid biosynthesis, protein folding, drug detoxification and regulation of cellular calcium levels. One third of all cellular proteins are folded and assembled in the ER, including most membrane-bound and secreted proteins that are responsible for inter-cellular signaling. As such, the ER has evolved a series of pathways collectively called Endoplasmic Reticulum Quality Control (ERQC) that ensure proteins that are properly folded, as errantly folded proteins can be toxic to the cell. These pathways play a diverse role in many human diseases. In neurodegenerative diseases such as Huntington's disease, the accumulation of protein plaques can be prevented by over-expression of protein chaperones, suggesting that weakened folding machinery causes the disease phenotype. In the case of diseases such as Cystic Fibrosis that are caused by genetic mutation to cell surface proteins, ERQC machinery degrades these mutated proteins despite their ability to function properly if they were allowed to exit the ER. In cancer, the ability of ERQC machinery to protect cells from stress enables tumor cells to survive and thrive in hypoxic and nutrient-poor environments. Systems biology methods have enabled the study of signaling pathways in human disease across the cell. However, with this breadth comes a limited ability to focus on particular areas of interest such as the ER. To address this, this thesis applies systems biology methods specifically to ER and ERQC pathways to better understand their role in human disease. We first characterize the proteins that reside in the ER and Golgi through comprehensive analysis of peptides identified in ER and Golgi fractions via mass spectrometry, providing the first experimentally-derived ER proteome. We then use this list of ER proteins to identify ER signaling pathways that distinguish between breast cancer subtypes to provide novel therapeutic approaches to treating<br>Le réticulum endoplasmique (RE) est un organelle cellulaire responsable de la biosynth`ese des lipides, du repliement des protéines, de la désintoxication et de la régulation des niveaux cellulaires de calcium. Un tiers des protéines cellulaires est plié et assemblé dans le RE, y compris la plupart des protéines liées à la membrane et des protéines sécrétées responsables de la signalisation inter-cellulaire. Ainsi, le RE a mis au point une série de voies de signalisation collectivement appelées Contrôle de Qualité du Réticulum Endoplasmique (CQRE) qui assurent que les protéines soient correctement pliées, étant donné que les protéines incorrectement pliées peuvent être toxiques pour la cellule. Ces voies jouent divers rôles dans de nombreuses maladies humaines. Dans les maladies neurod égénératives telles que la maladie de Huntington, l'accumulation de plaques de protéines peut être évitée par la sur-expression de protéines chaperons, ce qui sugg`ere qu'un affaiblissement de la machinerie de pliage cause le phénotype de cette maladie. Dans le cas de maladies comme la Fibrose Cystique qui sont causées par une mutation génétique des protéines de la membrane cellulaire, le CQRE dégrade ces protéines mutées bien que celles-ci fonctionneraient correctement si elles avaient été autorisées à quitter le RE. Dans le cancer, la capacité du CQRE à protéger les cellules contre le stress permet aux cellules tumorales de survivre et de se développer dans des environnements hypoxiques et pauvres en éléments nutritifs. Les méthodes de biologie des syst`emes ont permis l'étude des voies de signalisation dans les maladies humaines à travers la cellule. Cependant, avec cette large étendue, il devient difficile de se concentrer sur certains domaines d'intérêt tels que le RE. Pour résoudre ce problme, cette thse applique les méthodes de la biologie des syst`emes spécifiquement au RE et aux voies de signalisation du CQRE po
APA, Harvard, Vancouver, ISO, and other styles
26

Livingstone, Julie. "Gene expression and bioinformatics analysis of the isoflavonoid pathway in soybean." Thesis, McGill University, 2009. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=66992.

Full text
Abstract:
The phenylpropanoid pathway is highly researched due to t he putative nutraceutical benefits of its secondary metabolites. The enzymes of this pathway are member of gene families, but the exact number of gene homologues has to date been unknown. In this study, expressed sequence tags (ESTs) were used to identify all homologues in the isoflavonoid pathway of soybean (Glycine max L. Merr.). Gene expression of all homologues in whole tissues, and at a cellular level in the pod was also investigated using laser capture microdissection (LCM) and real time reverse-transcription polymerase chain reaction (qRT-PCR). Computational promoter analysis was undertaken to identify common regulatory motifs among the gene homologues. We have identified novel 2-hydroxyisoflavanone dehydratase and isoflavone-7-O-glucosyltransferase homologues. Differential expression of multiple gene homologues was discovered in numerous tissues. Our promoter analysis discovered five motifs which were previously identified within the promoter regions of the phenylpropanoid pathway in other plant species.<br>La plupart des gènes de la voie métabolique des phenylpropanoïdes chez le soya incluent plusieurs homologues, mais leur nombre exact pour chacun des gènes demeure inconnu. L'expression de tous les homologues fut observée dans plusieurs tissus et au niveau cellulaire dans la cosse utilisant les méthodes de « laser capture microdissection » et de « real-time reverse-transcription polymerase chain reaction ». Une analyse de promoteurs in silico a été réalisée afin d'identifier des motifs régulateur commun chez les homologues. Cette étude a identifié un gène 2-hydroxyisoflavanone dehydratase nouveau en plus de cinq gènes isoflavone-7-O-glucosyltransferase. En outre, l'expression différentielle de plusieurs des homologues fut observée surtout dans les racines, les cotylédons et dans la couche exocarpe de la cosse. L'analyse de promoteur a découvert cinq motifs, qui ont auparavant été identifiés aussi dans des promoteurs de la voie métabolique des phenylpropanoid de d'autres espèces de plantes.
APA, Harvard, Vancouver, ISO, and other styles
27

Tsay, Aaron. "A space-filling structural network of PCA-derived protein complexes in Saccharomyces cerevisiae." Thesis, McGill University, 2011. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=104738.

Full text
Abstract:
Proteins serve various functions in a cell such as structural support, enzymatic activity, signalling pathways, and transportation of cargo. Binary coupling of proteins often reports common biological functions between the two partners. However, protein-protein interactions in the context of multi-protein complexes report a more complete spectrum of functionality in time and space. Our goal is to understand how protein complexes are manifested under varying spatial and temporal states, how they respond to signalling inputs, and which proteins act as scaffolds or linchpin components.The development and refinement of the protein-fragment complementation assay (PCA) by Michnick et al. has enabled the understanding of dynamics of binary protein interactions in the context of living cells. PCA data based on murine dihydrofolate reductase (DHFR) is a survival-selection assay. Fragments of a reporter protein are tagged onto query proteins of interest. Reconstituted DHFR protein fragments in vivo results in a scoreble phenotype-resistance to methatrexate- which is the proxy for protein-protein interactions up to a resolution of 8nm. The resolution is determined by the fragment linker length. The activity of the DHFR reporter protein is reversible and thus indirectly embeds spatial and temporal information.We constructed a probabilistic model of protein complex dynamics using binary PCA dataset based on DHFR, which incorporates dynamic information, and model spheres that are representative of respective protein sizes. We set probabilistic constraints based on distances between centers of known interacting proteins. We define the distances as the sum of the radii of the corresponding spheres. The probabilities of distances are computed from a Gaussian function. We then generate an ensemble of protein complex structures using a Markov chain Monte Carlo method, based on the Metropolis-Hastings algorithm. The ensemble surveys the posterior distribution of protein complex structures in the structure space. From the output data, we compute contact frequencies between each protein pair within the ensemble. We calculate the surface accessibility of proteins, which consists of the area that is not shadowed by interacting partners. Using surface accessibility vectors of each structure, we hierarchically cluster the ensemble to retrieve representative meta-stable states of proteins complexes. We applied this method on an extended Arp2/3-based network, comprising highly evolutionarily conserved proteins, along with other binding partners (Tarassov et al., 2008). We were able to predict direct or indirect PCA interactions by changing the linker lengths and could identify false negatives within the PCA data. Furthermore, we can investigate the integrity of protein-protein interactions and simulate the effects of binding diffusive regulatory proteins, such as CDKs and cyclins, by altering nodes and edges in our network. Our data can also be correlated with protein sequences to make predictions about regulatory motifs. The potential of this in silico modeling method circumvents many limitations of traditional experimental methods such as yeast-two-hybrid and TAP-tagging, and serves as a new platform for investigating dynamics of protein complexes using real-space time-resolved approaches.<br>Les protéines ont des fonctions différentes dans une cellule comme un soutien structurel, une activité enzymatique, une voie de signalisation et un transport de fret. L'interaction binaire de protéines signale souvent des fonctions biologiques qui sont communes entre les deux partenaires. Toutefois, les interactions entre deux protéines dans le contexte de complexes multi-protéiques présentent une gamme plus complète de fonctionnalités dans le temps et l'espace. Notre objectif est de comprendre comment les complexes protéiques se manifestent dans différentes conditions spatiales et temporelles, comment ils réagissent aux entrées de signalisation, et quelles protéines agissent comme des échafaudages.Le développement et le raffinement de l'analyse de complémentation protéique-fragment (PCA) par Michnick et al. ont permis à la compréhension de la dynamique des interactions protéiques binaires dans le contexte de cellules vivantes. Les données de PCA, basées de la dihydrofolate réductase murine (DHFR), est un test de survie de sélection. Les fragments d'une protéine rapporteuse sont attachés sur des protéines d'intérêt. Les fragments reconstitués protéine de DHFR in vivo donnent un phénotype de résistance à methatrexate-ce qui signale les interactions protéine-protéine à une résolution de 8 nm. La résolution est déterminée par la longueur de liaison des fragments. L'activité de la protéine rapporteuse DHFR est réversible et donc intègre indirectement des informations spatiales et temporelles.Nous avons construit un modèle probabiliste du complexe dynamique de protéines en utilisant un ensemble de données binaires du PCA-DHFR, qui inclut des informations dynamiques, et les sphères de modèle qui sont représentatives des tailles respectives des protéines. Nous avons mis des contraintes probabilistes basées sur les distances entre les centres des protéines qui interagissent. Les distances sont équivaux à la somme des rayons des sphères correspondants. Les probabilités de distances sont calculées à partir d'une fonction gaussienne. Nous avons ensuite générer un ensemble de structures de complexes protéiques en utilisant une méthode Markov Chain Monte Carlo, basée sur l'algorithme de Metropolis-Hastings. L'ensemble représente la distribution a posteriori des structures des complexes protéiques dans l'espace. D'après les données, nous calculons les fréquences de contact entre chaque paire de protéines dans l'ensemble. Nous calculons l'accessibilité surface des protéines, qui se compose de la zone qui n'est pas éclipsée par l'interaction des partenaires. En utilisant des vecteurs d'accessibilité surface de chaque structure, nous faisons un cluster hiérarchique de l'ensemble pour récupérer des représentants des états méta-stables des complexes protéiques.Nous avons appliqué cette méthode sur un réseau étendu du complexe Arp2/3, comprenant des protéines hautement conservées dans l'évolution, avec d'autres partenaires de liaison (Tarassov et al., 2008). Nous avons été en mesure de prédire les interactions directes ou indirectes du PCA en modifiant les longueurs de liaison et d'identifier les faux négatifs dans les données du PCA. En outre, nous pouvons étudier l'intégrité des interactions protéine-protéine et de simuler les effets de l'incorporation des protéines régulatrices, tels que les cyclines et CDK, en modifiant les nœuds et les bords de notre réseau. Nos données peuvent aussi être en corrélation avec des séquences de protéines pour faire des prédictions au sujet des motifs de réglementation. Le potentiel de cette méthode de modélisation in silico de contourner de nombreuses limitations de méthodes expérimentales traditionnelles sert une nouvelle plateforme pour étudier la dynamique des complexes de protéines.
APA, Harvard, Vancouver, ISO, and other styles
28

Gendoo, Deena. "Bioinformatic sequence and structural analysis for Amyloidogenicity in Prions and other proteins." Thesis, McGill University, 2012. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110518.

Full text
Abstract:
Detection of amyloidogenic peptides or domains in proteins is of paramount importance towards understanding their role in amyloidosis in conformational diseases. This thesis explores different methods towards detection and prediction of amyloidogenic peptides using a variety of bioinformatic analytical methods. Bioinformatic analysis of secondary structural changes is employed to determine whether classes of structurally ambivalent peptides, mainly discordant and chameleon sequences, are efficient predictors of amyloidogenic segments. This analysis elucidates statistical relationships between discordance, chameleonism, and amyloidogenicity across a database of protein domains (SCOP), a subset of amyloid-forming proteins, and the prion family. The presented results stress upon the limitations of these peptides as predictors of amyloidogenicity, and raise issues on the predictive power that can be reaped from secondary structure prediction methods. In another bioinformatic approach, detection of conformationally variable segments in tertiary structures of PrP globular domains has been performed using Principal Component Analysis. This technique succeeded in identifying five conformationally variable domains within PrP, and ranking these subdomains by their ability to differentiate PrPs based on non-local structural response to pathogenic mutation and prion disease susceptibility. The presented results are corroborated by previous observations from experimental methods and molecular dynamic simulations, suggesting that this approach serves as a fast and reliable method for detection of potential amyloidogenic segments in amyloid-forming proteins. Finally, a structural, functional, and evolutionary bioinformatic analysis is conducted to assess the prevalence of the first experimentally verified amyloid fibril fold in nature, and whether this fold can serve as a prototype for other amyloid-forming proteins. The results indicate a limited scope of this fold in amyloid-forming proteins and across the protein universe, and have implications on future identification of amyloid-forming proteins that share this fold. Collectively, the presented thesis compares these different methods and discusses their efficacy in detection of amyloidogenic segments.<br>La détection de peptides ou de domaines amyloïdogéniques dans les protéines est d'une importance primordiale dans la compréhension de leur rôle dans l'amylose dans les maladies conformationnelles. Cette thèse explore différentes méthodes en vue de la détection et la prédiction des peptides amyloïdogéniques utilisant une variété de méthodes d'analyse bio-informatique. L'analyse bio-informatique des changements structurels secondaires est employé afin de déterminer si les classes des peptides structurellement ambivalentes, principalement des séquences discordantes et caméléons, sont des prédicteurs efficaces de segments amyloïdogéniques. Cette analyse élucide des relations statistiques entre la discordance, la chameleonism et l'amyloïdogénicité à travers une base de données de domaines protéiques (SCOP), un sous-ensemble de protéines formées d'amyloïdes, et de la famille prion. Les résultats présentés soulignent les limites de ces peptides en tant que prédicteurs d'amyloïdogénicité, et soulèvent des questions sur le pouvoir prédictif qui peut être récolté de méthodes de prédiction de structure secondaire. Dans une autre approche bio-informatique, la détection de segments de conformation variables dans les structures tertiaires de domaines globulaires PrP a été effectuée utilisant « Principal Component Analysis ». Cette technique a réussi à identifier cinq domaines de conformation variables au sein de la protéine PrP, et à classer ces sous-domaines par leur capacité à différencier les PrP fondés sur des réponses structurelles non-locales à la mutation pathogène et la susceptibilité aux maladies prion. Les résultats présentés sont corroborés par des observations antérieures à partir de méthodes expérimentales et de simulations de dynamique moléculaire, ce qui suggère que cette approche sert comme une méthode rapide et fiable pour la détection de segments amyloïdogéniques potentiels dans les protéines formées d'amyloïdes. Finalement, une analyse structurelle, fonctionnelle et évolutive bio-informatique est menée afin d'évaluer la prévalence du premier pli de fibrille amyloïde dans la nature vérifié expérimentalement, et si ce pli peut servir de prototype pour d'autres protéines formées d'amyloïdes. Les résultats indiquent une portée limitée de ce pli dans les protéines formées d'amyloïdes et à travers l'univers des protéines, et ont des répercussions sur l'identification future de protéines formées d'amyloïdes qui partagent ce pli. Collectivement, la thèse présentée compare ces différentes méthodes et discute leur efficacité dans la détection de segments amyloïdogéniques.
APA, Harvard, Vancouver, ISO, and other styles
29

Coulombe-Huntington, Jasmin. "Intron loss and gain in Eukaryotes." Thesis, McGill University, 2008. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=18747.

Full text
Abstract:
Although introns were first discovered almost 30 years ago, their evolutionary origin and function remains elusive. In this thesis, I describe a referenced-based intron mapping method based on multi-species whole-genome alignments. We applied this method in two distinct studies. First we studied intron loss and gain dynamics in mammals and subsequently in Drosophila. We mapped known human introns onto the mouse, rat and dog genomes, mouse introns onto the human genome and Drosophila melanogaster introns onto 10 other fully sequenced Drosophila genomes. This genome-wide approach allowed us to assess the presence or absence of over 150,000 known human introns across four mammalian species and more than 35,000 D. melanogaster introns across 11 fruit fly species. We inferred 122 intron loss events in mammals and no intron gain events. In flies, we were able to identify 1754 intron loss events and 213 gain events. In both studies we found that lost introns tend to be extremely short and show higher than average similarity between their 5' splice-site sequence and the 3' partner splice-site sequence. We also demonstrate that losses in mammals occur preferentially in highly expressed house-keeping genes, while in Drosophila we show that lost and gained introns are flanked by longer than average exons, display quite distinct phase distributions and losses demonstrate significant clustering within genes. Across flies, it appears introns that have been lost evolve faster than other introns while they occur in slowly evolving genes. Our results in both studies strongly support the cDNA recombination mechanism of intron loss. The results in flies also suggest that selective pressures affect site-specific loss rates and show that intron gain has occurred within the Drosophila lineage, solidifying the “introns-middle” hypothesis and providing some hints about the gain mechanism and origin of introns.<br>Malgré le fait que les introns furent découverts il y a près de 30 ans, leur origine et leur fonction nous échappent encore. Au cours de cette thèse, je décrirais une méthode qui permet de projeter des introns d'une espèce de référence sur d'autres génomes, basée sur des alignements de génomes complets à plusieurs espèces. Nous avons appliqué cette méthode dans le cadre de deux études distinctes. Premièrement, nous avons étudié les pertes et les gains d'introns chez les mammifères et ensuite chez les Drosophiles. Nous avons projeté les introns humains sur le génome de la souris, du rat et du chien, les introns de la souris sur le génome humain et les introns de la Drosophile melanogaster sur les génomes de 10 autres espèces de Drosophiles complètement séquencées. Cette approche d'ordre génomique nous a permis de comparer la présence ou l'absence de plus de 150,000 introns humains dans quatre espèces de mammifères et plus de 35,000 introns de D. melanogaster dans 11 espèces de drosophiles. Nous avons détecté 122 pertes d'introns chez les mammifères mais aucun gain d'intron. Chez les mouches à fruits, nous avons identifié 1754 pertes d'introns et 213 gains d'introns. Dans les deux études, nous démontrons que les introns perdus sont extrêmement courts et démontrent une similarité relativement élevée entre le site d'épissage au début de l'intron et le site d'épissage à la fin de l'intron. Nous démontrons chez les mammifères les pertes d'introns se produisent de préférence dans des gènes hautement exprimés et de fonctions cruciales à la cellule. Chez les drosophiles nous démontrons que les introns perdus ou gagnés sont délimités par des exons plus longs que la moyenne, ont une distribution de phase plutôt distincte et les pertes démontrent une tendance à se retrouver en groupe à l'intérieur des gènes. Chez les mouches à fruits, il semble que les introns perdus évoluent plus rapidement que la moyenne
APA, Harvard, Vancouver, ISO, and other styles
30

Nguyen, Thi Thu Thao. "Investigating non-canonical functions of gamma-tubulin by using genome scale structure-function (GSSF) analysis." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=86514.

Full text
Abstract:
Gamma-tubulin is a conserved component of microtubule-organizing center (MTOC) and functions in microtubule nucleation in vivo. Recent studies suggest that gamma-tubulin might have additional roles in microtubule organization. For example, the deletion of DSYL domain at the acidic unstructured C-terminal of Tub4 abrogates the Kar9-dependent pathway for spindle positioning. In vivo, gamma-tubulin is modulated via phosphorylation and the tyrosine 445 residue was found to be one of the phosphorylation sites of Tub4. In addition, the phospho-mimetic mutation (tub4-Y445D) causes defects in chromosome segregation. We hypothesize that differential phosphorylation of Tyr445 could control the non-canonical functions of Tub4. If this is the case, it is expected that phospho-mimetic and phospho-inhibiting mutants at Tyr445 would yield specific defects that report on the distinctive functions of Tub4.<br>In order to test this hypothesis, Genome Scale Structure Function (GSSF) analysis has been performed. This method consists of two main steps, first high-throughput Synthetic Genetic Array (SGA) analysis and second, data clustering using hierarchical algorithm. SGA is a powerful method to reveal genetic interacting partners of gene of interest. We have extended the SGA method by using known or predicted separation-of-function query alleles to cross into the deletion collection, which facilitates not only the study of essential genes but also the dissection of different functional modalities of genes. SGA analysis was conducted between a phospho-inhibiting tub4 mutant (tub4-Y445F) and ~4600 deletion mutants. Next, data clustering using hierarchical algorithm was performed on gene interaction matrix to identify major pathways that Tub4 is involved in. In addition to tub4 mutant, the GSSF analysis has been performed on conditional alleles from two different essential genes Glc7 (glc7-E101Q) and Ame1 (ame1-4), and has revealed genetic networks which recover known-regulated pathways as well as suggest new pathways that these two genes are involved.<br>Here, we present the GSSF analysis of the phospho-inhibiting allele tub4-Y445F. The results revealed previously known and expected pathways of gamma-tubulin including spindle positioning, actin organization, cell cycle checkpoints and interestingly, suggested new role of gamma-tubulin in DNA damage repair machinery. Preliminary data supporting the new role of gamma-tubulin in the DNA damage repair machinery is also presented, including genetic interactions with the MRX complex and HU sensitivity.<br>Altogether, the data outlined indicated that gamma-tubulin functions in a much more diverse network than would be expected if it were solely a MT nucleation factor. We propose that GSSF analysis on other tub4 separation-of-function mutants such as phospho-mimetic mutant tub4-Y445D will reveal how gamma-tubulin coordinates its multiple regulatory functions in cells.<br>La γ-tubuline est un composant du centre d'organisation des microtubules (COMT) et intervient dans la nucléation des microtubules in vivo. Des études récentes suggèrent que le rôle de la γ-tubuline pourrait s'étendre au-delà de cette fonction. Ainsi, la délétion du domaine DSYL à l'extrémité C-terminale acide et non structurée de Tub4 abolit la voie de positionnement du fuseau mitotique dépendant de Kar9. In vivo, la γ-tubuline est modulée par phosphorylation et le résidu tyrosine 445 est un site de phosphorylation de Tub4. De plus, une mutation phospho-mimétique (tub4-Y445D) provoque des défauts de ségrégation des chromosomes. Nous posons l'hypothèse que le phosphorylation différentielle de Tyr445 dicte les fonctions non-canoniques de Tub4. Par exemple, des mutants phospho-mimétiques ou inhibants la phosphorylation au site Tyr445 produiraient des défauts de diverses fonctions de Tub4.<br>Pour tester cette hypothèse, nous avons entrepris une étude structure-fonction à l'échelle du génome (GSSF) où une analyse du Synthetic Genetic Array (SGA) est suivie d'un regroupement des données par un algorithme hiérarchique. Le SGA est une technique permettant de révéler des interactions génétiques entre des gènes d'intérêt. Une analyse du SGA a été conduite entre un mutant de tub4 et ~4,600 mutants de délétion. Étant l'un des rares laboratoires à utiliser des mutations conditionnelles dans des analyses de SGA, nous pouvons étudier les gènes essentiels mais aussi disséquer les différentes fonctions des gènes. Dans un second temps, le regroupement des données par un algorithme hiérarchique a été réalisé à partir d'une matrice d'interactions génétiques dans le but d'identifier les principales voies d'action de Tub4. En plus de mutants tub4, une analyse GSSF a été conduite avec des allèles conditionnels des gènes essentiels Glc7 et Ame1, glc7-E101Q and ame1-4. Les réseaux d'interactions génétiques ainsi révélés comportent des voies connues pour être régulée par ces deux génes mais aussi suggèrent de nouvelles connexions.<br>Nous présentons ici l'analyse GSSF de l'allèle tub4-Y445F, inhibant la phosphorylation. Les résultats confirment le rôle de la γ-tubuline dans le positionnement du fuseau mitotique, l'organisation de l'actine et les points de contrôle du cycle cellulaire. Notre étude suggère que le γ-tubuline joue un rôle dans la machinerie de réparation des dommages à l'ADN. Des résultats préliminaires tels que des interactions génétique avec le complexe MRX et de test de sensibilité à HU sont présentées pour appuyer cette nouvelle fonction. Dans leur ensemble, nos données indiquent que la γ-tubuline a un rôle plus complexe que facteur de nucléation des microtubules. Nous pensons que les études GSSF d'autres allèles conditionnels de tub4 tel que tub4-Y445D (phospho-mimétique) permettront de mieux comprendre la coordination de ses multiples fonctions.
APA, Harvard, Vancouver, ISO, and other styles
31

Parmar, Victor. "Predicting transcription factor binding sites using phylogenetic footprinting and a probabilistic framework for evolutionary turnover." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=87000.

Full text
Abstract:
Identifying genomic locations of transcription-factor binding sites (TFBS), particularly in higher eukaryotic genomes, has been an enormous challenge. Computational methods involving identification of sequence conservation between related genomes have been the most successful since sites found in such highly conserved regions are more likely to be functional, i.e. are bound and regulate protein production. In this thesis, we present such a probabilistic algorithm for predicting TFBSs which also takes evolutionary turnovers into account. Our algorithm is validated via simulations and the results of its application on ChIP-chip data are presented.<br>L'identification des sites de fixation des facteurs de transcription (TFBS), particulièrement sur les génomes eucaryotiques plus élevés, a été un énorme défi. Les méthodes informatiques comportant l'identification de la conservation de séquence entre les génomes de différentes espèces ont eu beaucoup de succès parce que les sites trouvés dans de telles régions fortement conservées sont probablement fonctionnels (les facteurs de transcription se rajoutent sur le génome à ces sites-là et réglent la production de protéine). Dans cette thèse, nous présentons un algorithme probabiliste pour la prédiction de TFBSs qui prend en considération également le remuement évolutionnaire. Notre algorithme est validé par l'intermédiare des simulations et le résultats de son application sur des données ChIP-chip sont présentés
APA, Harvard, Vancouver, ISO, and other styles
32

Fauteux, François. "Computational DNA motif discovery in plant promoters." Thesis, McGill University, 2010. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=86926.

Full text
Abstract:
The regulation of gene expression is driven primarily by transcription factors binding to short DNA sequences. Here three studies related to promoter cis-regulatory motif discovery in plant promoters are presented. In the first study, an exact discriminative seeding DNA motif discovery addressing key issues associated with popular DNA motif discovery algorithms is proposed. The Seeder algorithm outperforms popular motif discovery tools on biological benchmark data. In the second study, the algorithm is applied to the identification of cis-regulatory motifs in seed storage protein gene promoters. Known and new motifs are discovered. In the third study, groups of orthologous genes are identified among five dicotyledonous plant species, and DNA motif discovery is carried out in the proximal promoter sequence within each group. The presence of three large clusters of groups of orthologous promoters sharing similar motifs is revealed.<br>L'expression des gènes est régulée, en grande partie, par la liaison des facteurs de transcription à de courtes séquences d'ADN. Trois études sont présentées, portant sur l'identification in silico de motifs régulateurs dans les séquences promotrices de gènes végétaux. Dans la première étude, un algorithme d'initiation discriminative exacte est présenté. L'algorithme surpasse plusieurs algorithmes populaires lorsque appliqué à des données biologiques de référence. Dans la deuxième étude, l'algorithme est utilisé pour l'identification de motifs cis-régulateurs conservés dans les promoteurs de gènes de protéines de réserve des graines chez diverses espèces végétales. Des motifs connus ainsi que de nouveaux motifs sont identifiés. Dans la troisième étude, des groupes de gènes orthologues sont identifiés chez cinq espèces dicotylédones, et une recherche de motifs cis-régulateurs est réalisée dans les séquences promotrices proximales pour chaque groupe. La présence de trois larges grappes de groupes d'orthologues partageant des motifs similaires est mise en évidence.
APA, Harvard, Vancouver, ISO, and other styles
33

Qu, Yiding. "Role of non-signaling (decoy) chemokine receptors in regulating cell migration: the mathematical model." Thesis, McGill University, 2013. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=114337.

Full text
Abstract:
Chemokines belong to a family of important chemoattractants that guide the directional migration of the cell. The cognate chemokine receptor on the cell senses the chemokine gradient and the cell moves towards the signal of increasing chemokine concentration. However, several chemokine receptors were recently identified as non-signaling (decoy), based on their ability to bind the chemokine but produce no measurable signal for the cell. The function of these decoy receptors is yet unknown. We hypothesized that the ligand binding by the decoy receptor may help maintaining a sharper chemokine gradient and thus stimulate the cell migration. We first assessed if the expression of decoy and corresponding signaling receptors changes when cancer cells acquire migratory phenotype – become metastatic. Using publically available database of gene expression in normal prostate, carcinoma and metastatic prostate cancer samples, we have found that the expression of decoy receptors CCX-CKR and OPG increased in metastatic cancer cells compared to normal prostate and positively correlated with the expression of signaling receptors CCR7 and RANK respectively. We next developed mathematical model that described the dynamics of chemokine ligand, normal receptor and decoy receptor as well as subsequent cell movement. Using this model we first assessed how the cells expressing signaling receptors only migrate towards the source of ligand given at different concentrations. At low levels of ligand, cell migration increased with the increase in ligand concentration. However, at higher concentrations, when the ligand levels exceeded the signaling receptor capacity, further increase in ligand resulted in the decrease the distance of cell migration. Importantly, at high levels of ligand the presence of the decoy receptor improved the speed and distance of cell migration. This study suggests the novel function for the non-signaling chemokine receptors in maintaining the chemokine gradient and positively regulating directional cell migration.<br>Les chimiokines appartiennent à une importante famille de ligands chimiotactiques qui guident la direction migratoire des cellules. Sur une cellule-cible, des récepteurs spécifiques à une chimiokine donnée répondent à un gradient du ligand, provoquant la migration cellulaire vers le signal avec une concentration croissante. Cependant, quelques récepteurs pouvant liés des chimiokines ont récemment été identifiés comme muets (leurre) parce que la liaison du ligand ne stimule pas de signalisation mesurable dans la cellule. La fonction de ces récepteurs-leurres n'est pas connue actuellement.Nous avons émis l'hypothèse que l'interaction des chimiokines à ces récepteurs-leurres contribue à maintenir un gradient de ligand plus prononcé et donc stimule les cellules à migrer. Afin de tester cette hypothèse, nous avons en premier comparé l'expression de récepteurs signalant et de récepteurs-leurres pour un même ligand, quand des cellules deviennent métastatiques. En utilisant des bases de données publiques sur l'expression des gènes dans des échantillons de prostate normale, de carcinomes prostatiques, et de métastases prostatiques, nous avons remarqué que l'expression des récepteurs-leurres CCX-CKR et OPG est augmentée dans les cellules métastatiques lorsque comparée avec les cellules de prostate normales. Nous avons aussi trouvé une corrélation positive avec les niveaux d'expression des récepteurs signalants CCR7 et RANK. Par la suite, nous avons développé un modèle mathématique qui prédit la dynamique des concentrations de chimiokines, l'expression des récepteurs signalants, des récepteurs-leurres, et des mouvements de la cellule résultants. Nous avons tout d'abord utilisé ce modèle afin de prédire comment des cellules exprimant seulement des récepteurs signalant migrent vers la source du ligand selon sa concentration. En présence de faibles concentrations de ligand, la migration cellulaire augmente proportionnellement à l'augmentation de la concentration du ligand. Cependant, à des concentrations plus élevées dépassant la capacité de liaison du récepteur signalant, une augmentation subséquente diminue la distance migrée par la cellule. L'expression concomittante de récepteurs-leurres améliore la vitesse et la distance de la migration cellulaire lorsque la concentration du ligand est élevée. Cette étude suggère donc que les récepteurs-leurres des chimiokines contribuent au gradient chimiotactique et augmentent la migration des cellules.
APA, Harvard, Vancouver, ISO, and other styles
34

Forgetta, Vincenzo. "Closing the gap between genome analysis and the biologist." Thesis, McGill University, 2013. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=114165.

Full text
Abstract:
Bioinformatics is a crucial component of genomics research because it enables the analyses of large and complex data sets. Conventionally, these analyses involve the use of sophisticated software, and are largely performed by those with prior experience in bioinformatics using adequate computational resources.Massively parallel DNA sequencing (MPS) platforms have democratized genome sequencing, making it affordable to the biologist. For many biologists this will be their first venture into bioinformatics and genomics. Consequently, they may be unfamiliar with bioinformatics or lack the necessary computer resources. For these biologists, the potential of using MPS platforms for genome analysis is half fulfilled; providing affordable genomic data without the means to easily analyze it. One approach to close this gap is to build software oriented towards those with limited bioinformatics expertise or resources.This dissertation describes a paradigm to close the gap between genome analysis and the biologist. Using this paradigm, I have developed software tools for three bioinformatics tasks in genome analysis: [i] assessment of a genome assembly, [ii] display and integrated analysis of genomic data, and [iii] deriving biological insight using public information. The first tool I developed was cgb, a program that creates custom UCSC Genome Browsers, allowing biologists to use this browser for genome sequences obtained from MPS platforms. Using cgb for a comparative genomics study of Clostridium difficile assisted us to identify diagnostic DNA markers associated with disease severity and to estimate that the pan-genome is larger than previously estimated. Next I developed contiGo, a general purpose tool to inspect genome assemblies via a web browser, thus bypassing the need for the biologist to install software, satisfy hardware requirements, and download large datasets. Along with cgb, this program enabled us to evaluate the performance of the Roche/454 Genome Sequencer-FLX MPS platform across five sequencing core facilities, and to produce a high quality genome sequence of the fungus Ophiostoma novo-ulmi. Lastly, I developed BL!P, a program to automate NCBI BLAST searches and explore the results in a dynamic interface. This program was inspired by my work on characterizing the genome of a multi-drug resistant and pathogenic strain of Escherichia fergusonii, for which cgb and contiGo were also used in data analysis. These applications have been used in other genomics projects by users with a range of bioinformatics expertise and resources. Other data-intensive fields of science could benefit from a similar software development paradigm.<br>La bioinformatique fait maintenant partie intégrante de la recherche en génomique, car elle permet des analyses de bases de données larges et complexes. Conventionnellement, ces analyses impliquent l'utilisation de logiciels sophistiqués et sont généralement faites par des personnes expérimentées en bioinformatique qui utilisent des ressources informatiques adéquates.Les plateformes de séquençage haut débit d'ADN ont démocratisé le séquençage du génome, le rendant ainsi accessible aux biologistes. Pour de nombreux biologistes, ce sera leur première incursion dans les domaines de la bioinformatique et de la génomique. Par conséquent, ils ne sont probablement pas familiers avec la bioinformatique ou n'ont pas les ressources informatiques nécessaires afin d'analyser les résultats. Pour ces biologistes, l'utilisation des plateformes de séquençage haut débit permet l'obtention abordable de données génomiques, mais n'offre pas les outils pour les analyser facilement. Le développement de logiciels ciblant les chercheurs ayant une expertise en bioinformatique limitée ou avec peu de ressources permettrait de combler cet écart.Cette dissertation décrit un paradigme visant à réduire, voire même à fermer, l'écart entre l'analyse du génome et le biologiste. En utilisant ce paradigme, j'ai développé des outils informatiques pour trois tâches facilitant l'analyse génomique : [i] l'évaluation de l'assemblage du génome, [ii] l'affichage et l'analyse intégrée des données génomiques, et [iii] l'obtention de connaissances biologiques utilisant de l'information publique. Le premier outil que j'ai développé était cgb, un programme qui crée des navigateurs personnalisés « UCSC Genome ». Il permet aux biologistes d'utiliser ces navigateurs pour évaluer les séquences obtenues à partir de plateformes de séquençage haut débit. L'utilisation de cgb lors d'une étude génomique comparative de Clostridium difficile nous a permis d'identifier des marqueurs diagnostics d'ADN associés à la gravité de la maladie et de démontrer que son pan-génome est plus grand qu'estimé précédemment. Ensuite, j'ai développé contiGo, un outil d'usage général pour réviser les assemblages de séquences génomiques par l'intermédiaire d'un navigateur web. Cette application permet aux biologistes de contourner la nécessité d'installer un logiciel, de satisfaire les exigences de l'équipement informatique, et de télécharger des larges bases de données. Conjointement avec cgb, ce programme nous a permis d'évaluer la performance de la plateforme de séquençage haut débit Roche/454 Genome Sequencer FLX, à travers cinq installations de séquençage, ainsi qu'à générer une séquence génomique de grande qualité du champignon Ophiostoma novo-ulmi. Finalement, j'ai développé BL!P, un programme pour automatiser les recherches BLAST NCBI et pour explorer les résultats obtenus dans une interface dynamique. Ce programme a été inspiré par mon travail sur la caractérisation du génome d'une souche pathogène et multi résistante d'Escherichia fergusonii, et pour laquelle cgb et contiGo ont également été utilisés dans l'analyse des données. Ces applications ont été utilisées dans d'autres projets de génomique par des utilisateurs possédant un éventail de compétences et de ressources bioinformatiques. D'autres domaines scientifiques générant des multitudes de données pourraient bénéficier d'un paradigme similaire de développement de logiciel informatique.
APA, Harvard, Vancouver, ISO, and other styles
35

Marko, Adam Christian. "Structure prediction and virtual screening: Application to G protein-coupled receptors." Diss., Search in ProQuest Dissertations & Theses. UC Only, 2009. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:1469757.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Rho, Mina. "Probabilistic models in computational molecular biology applied to the identification of mobile genetic elements and gene finding." [Bloomington, Ind.] : Indiana University, 2009. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3386714.

Full text
Abstract:
Thesis (Ph.D.)--Indiana University, School of Informatics and Computing, 2009.<br>Title from PDF t.p. (viewed on Jul 22, 2010). Source: Dissertation Abstracts International, Volume: 70-12, Section: B, page: 7299. Adviser: Haixu Tang.
APA, Harvard, Vancouver, ISO, and other styles
37

Murie, Carl Eric. "Experimental design and statistical analysis in high throughput screening." Thesis, McGill University, 2014. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=121125.

Full text
Abstract:
High throughput screening (HTS) is a biotechnology that allows researchers to detect the small number of active features (e.g. small molecules, small interfering RNAs) among libraries containing up to hundreds of thousands of features. HTS assays, as with all experimental techniques, are prone to both random error resulting from the inherent variability of biological processes or experimental procedures, and systematic error which can be introduced through any number of known or unknown sources. The effect of both types of error can result in truly inactive features being labeled as active (false positives) and truly active features being labeled as inactive (false negatives). The goal of experimental design and statistical analysis is to minimize and estimate the error of an assay, although in the HTS field these methods are not always fully utilized.This thesis presents improvements in the statistical analysis and experimental design of HTS in order to improve the detection of rare biological activity. I first present a comparison of the effectiveness of normalization methods for HTS screening in two titration series experiments and extend the results in a third experiment with two differently designed but otherwise identical screens: compounds in replicate plates were either placed in the same well locations or were randomly assigned to different locations. Best results were obtained with a combination of appropriate normalization and randomization. Secondly, the Single Assay-wide Variance Experimental (SAVE) design is introduced whereby a small replicated subset of an entire screen is used to derive Empirical Bayes random error estimates which are applied to the remaining majority of unreplicated measurements. SAVE is shown to produce valid and informative P-values comparable to the P-values produced with multi-replicate data. Thirdly, the Control Plate Regression (CPR) normalization method, designed for assays such as secondary screens where there may be a majority of active features, is developed and shown to outperform current methodology. Diagnostic techniques are provided that allow researchers to predict the effectiveness and appropriateness of applying CPR. Lastly, the Statistics and dIagnostic Graphs for HTS (SIGHTS) software was developed to implement many of the techniques discussed in this thesis and is designed to be accessible to researchers with no programming experience.Combining graphical assessments, randomization procedures, normalization methods customized to the requirements of the screen, and statistical testing is shown to produce superior results to current HTS analysis techniques.<br>Le criblage à haut débit (CHD) est une biotechnologie qui permet l'identification d'un petit nombre de caractéristiques biologiques (petites molécules, petits ARN interférents) actifs parmi un très grand nombre de caractéristiques (jusqu'à des centaines de mille). Les expériences CHD, comme dans le cas de toute technique expérimentale, sont enclins autant aux erreurs aléatoires résultants de la variabilité inhérente des processus biologiques ou des procédures expérimentales, qu'aux erreurs systématiques qui peuvent être introduites par une multitude de sources connues ou inconnues. L'effet des deux types d'erreurs peut résulter en une identification comme actif d'activités réellement inactives (faux-positifs) et en des caractéristiques réellement actives identifiées comme étant inactives (faux-négatifs). Le but de la conception expérimentale et de l'analyse statistique est de minimiser et d'estimer l'erreur d'une expérience, bien que ces méthodes ne soient pas entièrement appliquées dans le domaine de la CHD. Cette thèse présente une suite de méthodes graphiques qui utilisent la correspondance entre les données et les attentes biologiques ou statistiques afin d'aider à évaluer la qualité de l'expérience et d'aider à choisir des techniques analytiques qui soient les plus appropriées. Une conception expérimentale randomisée (les caractéristiques sont assignées à différentes positions de puits sélectionnés de manière aléatoire au travers des réplicats de plaques) est présenté et comparé à une conception standard (les caractéristiques sont assignées aux mêmes positions de puits au travers des réplicats de plaques) et démontre qu'il est possible de mieux détecter les caractéristiques actives tout en réduisant les effets erronés. Une conception expérimentale est présenté où les valeurs p informatives peuvent être produites pour un essai à réplicat unique en utilisant le test statistique Modèle à Variance Aléatoire (MVA) avec un petit sous-ensemble de données répliquées à partir de l'essai à réplicat unique. Troisièmement, la méthode de normalisation "Control Plate Regression (CPR)" conçu pour des expériences de dépistage secondaire, ou il peut y avoir majorité d'éléments actifs, a été développée et démontre une meilleure performance que les méthode antérieures. Des techniques diagnostiques sont fournis pour permettre aux chercheurs de prédire l'efficacité et la pertinence de l'application de la méthode CPR. L'application combinée des évaluations graphiques d'une expérience, la conception expérimentale randomisé, les techniques de normalisation désignées pour des types de données spécifiques et les tests statistiques sont présentés comme ayant une capacité à produire des résultats de niveau supérieur aux techniques d'analyses CHD courantes. Le progiciel SIGHTS fut développé afin d'implémenter les techniques présentées dans cette thèse afin de rendre ces méthodes accessible aux chercheurs sans expertise en programmation.
APA, Harvard, Vancouver, ISO, and other styles
38

Bouchard, Johnathan. "Conservation analysis of potential cis-NATs in Brassicaceae plants for crop improvement." Thesis, McGill University, 2014. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=121234.

Full text
Abstract:
Canola fuels a multi-billion dollar industry in Canada. It is a Canadian trademarked name of specific cultivars derived from specific Brassicaceae plants. Cis-NATs are natural antisense transcripts that overlap a gene and are not translated into proteins. Instead, they silence their parent gene's expression through various mechanisms. Their role in humans is well established, but their role in plants is relatively obscure. The goal of this thesis project is to analyze the conservation of cis-NATs across 8 different Brassicaceae genera (9 species). This is useful for picking up targets for crop improvement in canola. Conservation was studied across the 9 species, then across two subgroups of 4 and 2 species, respectively; cis-NATs simultaneously exhibiting conservation in all three scenarios were selected. A total of 34 potential candidates were identified. The study also suggests that the type of a cis-NAT might also affect its conservation. The presented methodology is a powerful pre-screening strategy to direct experimental efforts. It can be used with genes and other transcribed non-coding DNA.<br>Le canola est à la base d'une industrie canadienne de plusieurs milliards de dollars. En fait, le mot canola est un acronyme canadien incluant certaines plantes dérivées d'espèces de la famille des Brassicaceae. Les cis-NATs sont des molécules d'ARN qui ne sont pas traduites en protéines. Elles réduisent plutôt l'expression des gènes qu'elles superposent à travers différents mécanismes. Leur rôle chez les humains est bien établit, mais ce n'est pas le cas chez les plantes. Le but de cette thèse est d'identifier des cis-NATs qui sont conservés à travers 8 genres différents (9 espèces) de la famille des Brassicaceae. Cela est pratique pour identifier des candidats pouvant être utilisés pour une application agronomique. La conservation a été étudiée à travers les 9 espèces, puis à travers deux sous-groupes de 4 et 2 espèces, respectivement. Les cis-NATs qui démontraient une conservation à travers 9, 4, et 2 espèces simultanément ont été sélectionnés. 34 candidats ont été identifiés. Le projet de recherche suggère aussi que le type de cis-NAT peut potentiellement influencer sa conservation. La méthode présentée est une stratégie de recherche préalable et très efficace pour diriger les efforts expérimentaux. Elle peut être aussi utilisée avec des gènes ou n'importe quel autre élément génétique non codant qui est transcrit.
APA, Harvard, Vancouver, ISO, and other styles
39

Gaspar, John M. "Denoising amplicon-based metagenomic data." Thesis, University of New Hampshire, 2014. http://pqdtopen.proquest.com/#viewpdf?dispub=3581214.

Full text
Abstract:
<p> Reducing the effects of sequencing errors and PCR artifacts has emerged as an essential component in amplicon-based metagenomic studies. Denoising algorithms have been written that can reduce error rates in mock community data, in which the true sequences are known, but they were designed to be used in studies of real communities. To evaluate the outcome of the denoising process, we developed methods that do not rely on <i>a priori </i> knowledge of the correct sequences, and we applied these methods to a real-world dataset. We found that the denoising algorithms had substantial negative side-effects on the sequence data. For example, in the most widely used denoising pipeline, AmpliconNoise, the algorithm that was designed to remove pyrosequencing errors changed the reads in a manner inconsistent with the known spectrum of these errors, until one of the parameters was increased substantially from its default value.</p><p> With these shortcomings in mind, we developed a novel denoising program, FlowClus. FlowClus uses a systematic approach to filter and denoise reads efficiently. When denoising real datasets, FlowClus provides feedback about the process that can be used as the basis to adjust the parameters of the algorithm to suit the particular dataset. FlowClus produced a lower error rate compared to other denoising algorithms when analyzing a mock community dataset, while retaining significantly more sequence information. Among its other attributes, FlowClus can analyze longer reads being generated from current protocols and irregular flow orders. It has processed a full plate (1.5 million reads) in less than four hours; using its more efficient (but less precise) trie analysis option, this time was further reduced, to less than seven minutes. </p>
APA, Harvard, Vancouver, ISO, and other styles
40

Wu, Tsung-Jung. "Integration of Cancer-Related Mutations for Pan-Cancer Analysis." Thesis, The George Washington University, 2014. http://pqdtopen.proquest.com/#viewpdf?dispub=1556905.

Full text
Abstract:
<p> Years of sequence feature curation by UniProtKB/Swiss-Prot, PIR-PSD, NCBI-CDD, RefSeq and other database biocurators has led to a rich repository of information on functional sites of genes and proteins. This information along with variation-related annotation can be used to scan human short sequence reads from next-generation sequencing (NGS) pipelines for presence of non-synonymous single-nucleotide variations (nsSNVs) that affect functional sites. This and similar workflows are becoming more important because thousands of NGS data sets are being made available through projects such as The Cancer Genome Atlas (TCGA), and researchers want to evaluate their biomarkers in genomic data. BioMuta, an integrated sequence feature database, provides a framework for automated and manual curation and integration of cancer-related sequence features so that they can be used in NGS analysis pipelines. Sequence feature information in BioMuta is collected from the Catalogue of Somatic Mutations in Cancer (COSMIC), ClinVar, UniProtKB and through biocuration of information available from publications. Additionally, nsSNVs identified through automated analysis of NGS data from TCGA are also included in the database. Due to the petabytes of data and sequence information present in NGS primary databases, a High-performance Integrated Virtual Environment (HIVE) platform for storing, analyzing, computing and curating NGS data and associated metadata has been developed. Using HIVE, 31,979 nsSNVs were identified in TCGA-derived NGS data from breast cancer patients. All variations identified through this process are stored in a Curated Short Read archive, and the nsSNVs from the tumor samples are included in BioMuta. Currently, BioMuta has 26 cancer types with 13,896 small scale and 308,986 large scale study-derived variations. Integration of variation data allows identifications of novel or common nsSNVs that can be prioritized in validation studies.</p>
APA, Harvard, Vancouver, ISO, and other styles
41

Adai, Alex Tamas. "Uncovering microRNA function through data integration." Diss., Search in ProQuest Dissertations & Theses. UC Only, 2008. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3311333.

Full text
APA, Harvard, Vancouver, ISO, and other styles
42

Novak, Barbara Anna. "Quantitative pathway modeling and analysis in cancer." Diss., Search in ProQuest Dissertations & Theses. UC Only, 2007. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3261242.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Chiang, Ranyee Agnes. "Ligand-based perspectives on the evolution of enzyme function." Diss., Search in ProQuest Dissertations & Theses. UC Only, 2008. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3324594.

Full text
APA, Harvard, Vancouver, ISO, and other styles
44

Kelly, Libusha. "Functional hotspots revealed by mutational, evolutionary, and structural characterization of ABC transporters." Diss., Search in ProQuest Dissertations & Theses. UC Only. Search in ProQuest Dissertations & Theses. UC Only, 2008. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3324617.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Wu, Randy. "Chromatin regulatory signatures in Saccharomyces cerevisiae." Diss., Search in ProQuest Dissertations & Theses. UC Only, 2008. http://gateway.proquest.com/openurl?url_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&res_dat=xri:pqdiss&rft_dat=xri:pqdiss:3339209.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Frederick, Madeline Rose. "The role of RNA-editing in viral mediated pathogenesis." Kent State University Honors College / OhioLINK, 2018. http://rave.ohiolink.edu/etdc/view?acc_num=ksuhonors152545654349718.

Full text
APA, Harvard, Vancouver, ISO, and other styles
47

Wang, Chen. "Novel software tool for microsatellite instability classification and landscape of microsatellite instability in osteosarcoma." Miami University / OhioLINK, 2019. http://rave.ohiolink.edu/etdc/view?acc_num=miami1554829925088174.

Full text
APA, Harvard, Vancouver, ISO, and other styles
48

Fang, Mike. "Transcriptomic Signatures of Heart Failure in People Living with HIV." Case Western Reserve University School of Graduate Studies / OhioLINK, 2021. http://rave.ohiolink.edu/etdc/view?acc_num=case1601985789245142.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Fei, Qili. "A widespread impact on small RNAs and gene networks in rice MSP1/OsTDL1a mutants, partners with key roles in anther development." Thesis, University of Delaware, 2017. http://pqdtopen.proquest.com/#viewpdf?dispub=10014955.

Full text
Abstract:
<p> Dissection of the genetic pathways and mechanisms by which anther development occurs in grasses is crucial for both a basic understanding of plant development and for traits of agronomic importance like male sterility. In rice, MULTIPLE SPOROCYTES1 (MSP1), a leucine-rich-repeat receptor kinase, play an important role in anther development by limiting the number of sporocytes. OsTDL1a (a TPD1-like gene in rice) encodes a small protein which acts as a cofactor of MSP1 in the same regulatory pathway. In this study, we analyzed small RNA and mRNA changes in different stages of spikelets from wildtype rice, and from msp1 and ostdl1a mutants. Analysis across different stages of rice spikelets of the small RNA data identified miRNAs demonstrating differential abundances. miR2275 was depleted in the two rice mutants; this miRNA is specifically enriched in anthers and functions to trigger the production of 24-nt phased secondary siRNAs (phasiRNAs) from <i>PHAS</i> loci. We observed that the 24-nt phasiRNAs as well as their precursor <i>PHAS</i> mRNAs were also depleted in the two mutants. Based on comparisons of transcript levels across the spikelet stages and mutants, we identified 22 transcription factors as candidates to have roles specific to anther development, potentially acting downstream of the OsTDL1a-MSP1 pathway. An analysis of co-expression identified three Argonaute-encoding genes (<i>OsAGO1d, OsAGO2b,</i> and <i> OsAGO18</i>) that accumulate transcripts coordinately with phasiRNAs, suggesting a functional relationship. By mRNA in situ analysis, we demonstrated a strong correlation between the spatiotemporal pattern of accumulation of these OsAGO transcripts with previously-published phasiRNA accumulation patterns from maize.</p>
APA, Harvard, Vancouver, ISO, and other styles
50

Zheng, Chunfang. "Genome rearrangement algorithms applied to comparative maps." Thesis, University of Ottawa (Canada), 2006. http://hdl.handle.net/10393/27313.

Full text
Abstract:
The Hannenhalli-Pevzner algorithm for computing the evolutionary distance between two genomes is very efficient when the genomes are signed and totally ordered. But in real comparative maps, the data suffer from problems such as coarseness, missing data, no signs, paralogy, order conflicts and mapping noise. In this thesis we have developed a suite of algorithms for genome rearrangement analysis in the presence of noise and incomplete information. For coarseness and missing data, we represent each chromosome as a partial order, summarized by a directed acyclic graph (DAG). We augment each DAG to a directed graph (DG) in which all possible linearizations are embedded. The chromosomal DGs representing two genomes are combined to produce a single bicoloured graph. The major contribution of the thesis is an algorithm for extracting a maximal decomposition of some subgraph into alternating coloured cycles, determining an optimal sequence of rearrangements, and hence the genomic distance. Also based on this framework, we have proposed an algorithm to solve all the above problems of comparative maps simultaneously by adding heuristic preprocessing to the exact algorithm approach. We have applied this to the comparison of maize and sorghum genomic maps on the GRAMENE database. A further contribution treats the inflation of genome distance by high levels of noise due to incorrectly resolved paralogy and error at the mapping, sequencing and alignment levels. We have developed an algorithm to remove the noise by maximizing strips and tested its robustness as noise levels increase.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography