To see the other types of publications on this topic, follow the link: Bioinformatics (0715).

Dissertations / Theses on the topic 'Bioinformatics (0715)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Bioinformatics (0715).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Standard, Joseph Tabb. "Mechanistic targets of weight loss-induced cancer prevention by dietary calorie restriction and physical activity." Thesis, Kansas State University, 2013. http://hdl.handle.net/2097/15937.

Full text
Abstract:
Master of Science<br>Department of Human Nutrition<br>Weiqun Wang<br>Weight control through either dietary calorie restriction (DCR) or exercise is associated with cancer prevention in animal models. However, the underlying mechanisms are not fully defined. Bioinformatics approaches using genomics, proteomics, and lipidomics were employed to elucidate the profiling changes of genes, proteins, and phospholipids in response to weight loss by DCR or exercise in a mouse skin cancer model. SENCAR mice were randomly assigned into 4 groups for 10 weeks: ad lib-fed sedentary control, ad lib-fed exercise (AE), exercise but pair-fed isocaloric amount of control (PE), and 20% DCR. Two hours after topical TPA treatment, skin epidermis was analyzed by Affymetrix for gene expression, DIGE for proteomics, and lipidomics for phospholipids. Body weights were significantly reduced in both DCR and PE but not AE mice versus the control. Among 39,000 transcripts, 411, 67, and 110 genes were significantly changed in DCR, PE, and AE, respectively. The expression of genes relevant to PI3K-Akt and Ras-MAPK signaling was effectively reduced by DCR and PE as measured through GenMAPP software. Proteomics analysis identified ~120 proteins, with 22 proteins significantly changed by DCR, including upregulated apolipoprotein A-1, a key antioxidant protein that decreases Ras-MAPK activity. Of the total 338 phospholipids analyzed by lipidomics, 57 decreased by PE including 5 phophatidylinositol species that serve as PI3K substrates. Although there were many impacts that we still need to characterize, it appears that both Ras-MAPK and PI3K-Akt signaling pathways are the key cancer preventive targets that have been consistently demonstrated by three bioinformatics approaches.
APA, Harvard, Vancouver, ISO, and other styles
2

Brown, Shawn Paul. "Rules and patterns of microbial community assembly." Diss., Kansas State University, 2014. http://hdl.handle.net/2097/18324.

Full text
Abstract:
Doctor of Philosophy<br>Division of Biology<br>Ari M. Jumpponen<br>Microorganisms are critically important for establishing and maintaining ecosystem properties and processes that fuel and sustain higher-trophic levels. Despite the universal importance of microbes, we know relatively little about the rules and processes that dictate how microbial communities establish and assemble. Largely, we rely on assumptions that microbial community establishment follow similar trajectories as plants, but on a smaller scale. However, these assumptions have been rarely validated and when validation has been attempted, the plant-based theoretical models apply poorly to microbial communities. Here, I utilized genomics-inspired tools to interrogate microbial communities at levels near community saturation to elucidate the rules and patterns of microbial community assembly. I relied on a community filtering model as a framework: potential members of the microbial community are filtered through environmental and/or biotic filters that control which taxa can establish, persist, and coexist. Additionally, I addressed whether two different microbial groups (fungi and bacteria) share similar assembly patterns. Similar dispersal capabilities and mechanisms are thought to result in similar community assembly rules for fungi and bacteria. I queried fungal and bacterial communities along a deglaciated primary successional chronosequence to determine microbial successional dynamics and to determine if fungal and bacterial assemblies are similar or follow trajectories similar to plants. These experiments demonstrate that not only do microbial community assembly dynamics not follow plant-based models of succession, but also that fungal and bacterial community assembly dynamics are distinct. We can no longer assume that because fungi and bacteria share small propagule sizes they follow similar trends. Further, additional studies targeting biotic filters (here, snow algae) suggest strong controls during community assembly, possibly because of fungal predation of the algae or because of fungal utilization of algal exudates. Finally, I examined various technical aspects of sequence-based ecological investigations. These studies aimed to improve microbial community data reliability and analyses.
APA, Harvard, Vancouver, ISO, and other styles
3

Tangirala, Karthik. "Unsupervised feature construction approaches for biological sequence classification." Diss., Kansas State University, 2015. http://hdl.handle.net/2097/19123.

Full text
Abstract:
Doctor of Philosophy<br>Department of Computing and Information Sciences<br>Doina Caragea<br>Recent advancements in biological sciences have resulted in the availability of large amounts of sequence data (DNA and protein sequences). Biological sequence data can be annotated using machine learning techniques, but most learning algorithms require data to be represented by a vector of features. In the absence of biologically informative features, k-mers generated using a sliding window-based approach are commonly used to represent biological sequences. A larger k value typically results in better features; however, the number of k-mer features is exponential in k, and many k-mers are not informative. Feature selection is widely used to reduce the dimensionality of the input feature space. Most feature selection techniques use feature-class dependency scores to rank the features. However, when the amount of available labeled data is small, feature selection techniques may not accurately capture feature-class dependency scores. Therefore, instead of working with all k-mers, this dissertation proposes the construction of a reduced set of informative k-mers that can be used to represent biological sequences. This work resulted in three novel unsupervised approaches to construct features: 1. Burrows Wheeler Transform-based approach, that uses the sorted permutations of a given sequence to construct sequential features (subsequences) that occur multiple times in a given sequence. 2. Community detection-based approach, that uses a community detection algorithm to group similar subsequences into communities and refines the communities to form motifs (group of similar subsequences). Motifs obtained using the community detection-based approach satisfy the ZOMOPS constraint (Zero, One or Multiple Occurrences of a Motif Per Sequence). All possible unique subsequences of the obtained motifs are then used as features to represent the sequences. 3. Hybrid-based approach, that combines the Burrows Wheeler Transform-based approach and the community detection-based approach to allow certain mismatches to the features constructed using the Burrows Wheeler Transform-based approach. To evaluate the predictive power of the features constructed using the proposed approaches, experiments were conducted in three learning scenarios: supervised, semi-supervised, and domain adaptation for both nucleotide and protein sequence classification problems. The performance of classifiers learned using features generated with the proposed approaches was compared with the performance of the classifiers learned using k-mers (with feature selection) and feature hashing (another unsupervised dimensionality reduction technique). Experimental results from the three learning scenarios showed that features constructed with the proposed approaches were typically more informative than k-mers and feature hashing.
APA, Harvard, Vancouver, ISO, and other styles
4

Maurer, Dustin. "Comparison of background correction in tiling arrays and a spatial model." Kansas State University, 2011. http://hdl.handle.net/2097/12130.

Full text
Abstract:
Master of Science<br>Department of Statistics<br>Susan J. Brown<br>Haiyan Wang<br>DNA hybridization microarray technologies have made it possible to gain an unbiased perspective of whole genome transcriptional activity on such a scale that is increasing more and more rapidly by the day. However, due to biologically irrelevant bias introduced by the experimental process and the machinery involved, correction methods are needed to restore the data to its true biologically meaningful state. Therefore, it is important that the algorithms developed to remove any sort of technical biases are accurate and robust. This report explores the concept of background correction in microarrays by using a real data set of five replicates of whole genome tiling arrays hybridized with genetic material from Tribolium castaneum. It reviews the literature surrounding such correction techniques and explores some of the more traditional methods through implementation on the data set. Finally, it introduces an alternative approach, implements it, and compares it to the traditional approaches for the correction of such errors.
APA, Harvard, Vancouver, ISO, and other styles
5

Adeyanju, Adedayo. "Genetic study of resistance to charcoal rot and Fusarium stalk rot diseases of sorghum." Diss., Kansas State University, 2014. http://hdl.handle.net/2097/17559.

Full text
Abstract:
Doctor of Philosophy<br>Department of Agronomy<br>Tesfaye Tesso<br>Fusarium stalk rot and charcoal rot caused by Fusarium thapsinum and Macrophomina phaseolina respectively are devastating global diseases in sorghum that lead to severe quality and yield loss each year. In this study, three sets of interrelated experiments were conducted that will potentially lead to the development of resistance based control option to these diseases. The first experiment was aimed at identifying sources of resistance to infection by M. phaseolina and F. thapsinum in a diverse panel of 300 sorghum genotypes. The genotypes were evaluated in three environments following artificial inoculation. Out of a total of 300 genotypes evaluated, 95 genotypes were found to have resistance to M. phaseolina and 77 to F. thapsinum of which 53 genotypes were resistant to both pathogens. In the second experiment, a set of 79,132 single nucleotide polymorphisms (SNPs) markers were used in an association study to identify genomic regions underlying stalk rot resistance using a multi-locus mixed model association mapping approach. We identified 14 loci associated with stalk rot and a set of candidate genes that appear to be involved in connected functions controlling plant defense response to stalk rot resistance. The associated SNPs accounted for 19-30% of phenotypic variation observed within and across environments. An analysis of associated allele frequencies within the major sorghum subpopulations revealed enrichment for resistant alleles in the durra and caudatum subpopulations compared with other subpopulations. The findings suggest a complicated molecular mechanism of resistance to stalk rots. The objective of the third experiment was to determine the functional relationship between stay-green trait, leaf dhurrin and soluble sugar levels and resistance to stalk rot diseases. Fourteen genotypic groups derived from a Tx642 × Tx7000 RIL population carrying combinations of stay-green quantitative trait loci were evaluated under three environments in four replications. The stg QTL had variable effects on stalk rot disease. Genotypes carrying stg1, stg3, stg1,3 and stg1,2,3,4 expressed good levels of resistance to M. phaseolina but the combination of stg1 and stg3 was required to express the same level of resistance to F. thapsinum. Other stg QTL blocks such as stg2 and stg4 did not have any impact on stalk rot resistance caused by both pathogens. There were no significant correlations between leaf dhurrin, soluble sugar concentration, and resistance to any of the pathogens.
APA, Harvard, Vancouver, ISO, and other styles
6

Tangirala, Karthik. "Semi-supervised and transductive learning algorithms for predicting alternative splicing events in genes." Thesis, Kansas State University, 2011. http://hdl.handle.net/2097/12013.

Full text
Abstract:
Master of Science<br>Department of Computing and Information Sciences<br>Doina Caragea<br>As genomes are sequenced, a major challenge is their annotation -- the identification of genes and regulatory elements, their locations and their functions. For years, it was believed that one gene corresponds to one protein, but the discovery of alternative splicing provided a mechanism for generating different gene transcripts (isoforms) from the same genomic sequence. In the recent years, it has become obvious that a large fraction of genes undergoes alternative splicing. Thus, understanding alternative splicing is a problem of great interest to biologists. Supervised machine learning approaches can be used to predict alternative splicing events at genome level. However, supervised approaches require large amounts of labeled data to produce accurate classifiers. While large amounts of genomic data are produced by the new sequencing technologies, labeling these data can be costly and time consuming. Therefore, semi-supervised learning approaches that can make use of large amounts of unlabeled data, in addition to small amounts of labeled data are highly desirable. In this work, we study the usefulness of a semi-supervised learning approach, co-training, for classifying exons as alternatively spliced or constitutive. The co-training algorithm makes use of two views of the data to iteratively learn two classifiers that can inform each other, at each step, with their best predictions on the unlabeled data. We consider three sets of features for constructing views for the problem of predicting alternatively spliced exons: lengths of the exon of interest and its flanking introns, exonic splicing enhancers (a.k.a., ESE motifs) and intronic regulatory sequences (a.k.a., IRS motifs). Naive Bayes and Support Vector Machine (SVM) algorithms are used as based classifiers in our study. Experimental results show that the usage of the unlabeled data can result in better classifiers as compared to those obtained from the small amount of labeled data alone. In addition to semi-supervised approaches, we also also study the usefulness of graph based transductive learning approaches for predicting alternatively spliced exons. Similar to the semi-supervised learning algorithms, transductive learning algorithms can make use of unlabeled data, together with labeled data, to produce labels for the unlabeled data. However, a classification model that could be used to classify new unlabeled data is not learned in this case. Experimental results show that graph based transductive approaches can make effective use of the unlabeled data.
APA, Harvard, Vancouver, ISO, and other styles
7

Peng, Liang. "Neighborhood-Oriented feature selection and classification of Duke’s stages on colorectal Cancer using high density genomic data." Kansas State University, 2011. http://hdl.handle.net/2097/10751.

Full text
Abstract:
Master of Science<br>Department of Statistics<br>Haiyan Wang<br>The selection of relevant genes for classification of phenotypes for diseases with gene expression data have been extensively studied. Previously, most relevant gene selection was conducted on individual gene with limited sample size. Modern technology makes it possible to obtain microarray data with higher resolution of the chromosomes. Considering gene sets on an entire block of a chromosome rather than individual gene could help to reveal important connection of relevant genes with the disease phenotypes. In this report, we consider feature selection and classification while taking into account of the spatial location of probe sets in classification of Duke’s stages B and C using DNA copy number data or gene expression data from colorectal cancers. A novel method was presented for feature selection in this report. A chromosome was first partitioned into blocks after the probe sets were aligned along their chromosome locations. Then a test of interaction between Duke’s stage and probe sets was conducted on each block of probe sets to select significant blocks. For each significant block, a new multiple comparison procedure was carried out to identify truly relevant probe sets while preserving the neighborhood location information of the probe sets. Support Vector Machine (SVM) and K-Nearest Neighbor (KNN) classification using the selected final probe sets was conducted for all samples. Leave-One-Out Cross Validation (LOOCV) estimate of accuracy is reported as an evaluation of selected features. We applied the method on two large data sets, each containing more than 50,000 features. Excellent classification accuracy was achieved by the proposed procedure along with SVM or KNN for both data sets even though classification of prognosis stages (Duke’s stages B and C) is much more difficult than that for the normal or tumor types.
APA, Harvard, Vancouver, ISO, and other styles
8

Jasrapuria, Sinu. "Tribolium castaneum genes encoding proteins with the chitin-binding type II domain." Diss., Kansas State University, 2011. http://hdl.handle.net/2097/12017.

Full text
Abstract:
Doctor of Philosophy<br>Department of Biochemistry<br>Subbarat Muthukrishnan<br>The extracellular matrices of cuticle and peritrophic matrix of insects are composed mainly of chitin complexed with proteins, some of which contain chitin-binding domains. This study is focused on the identification and functional characterization of genes encoding proteins that possess one or more copies of the six-cysteine-containing ChtBD2 domain (Peritrophin A motif =CBM_14 =Pfam 01607) in the red flour beetle, Tribolium castaneum. A bioinformatics search of T. castaneum genome yielded previously characterized chitin metabolic enzymes and several additional proteins. Using phylogenetic analyses, the exon-intron organization of the corresponding genes, domain organization of proteins, and temporal and tissue-specificity of expression patterns, these proteins were classified into three large families. The first family includes 11 proteins essentially made up of 1 to 14 repeats of the peritrophin A domain. Transcripts for these proteins are expressed only in the midgut and only during feeding stages of development. We therefore denote these proteins as “Peritrophic Matrix Proteins” or PMPs. The genes of the second and third families are expressed in cuticle-forming tissues throughout all stages of development but not in the midgut. These two families have been denoted as “Cuticular Proteins Analogous to Peritrophins 3” or CPAP3s and “Cuticular Proteins Analogous to Peritophins 1” or CPAP1s based on the number of ChtBD2 domains that they contain. Unlike other cuticular proteins studied so far, TcCPAP1-C protein is localized predominantly in the exocuticle and could contribute to the unique properties of this cuticular layer. RNA interference (RNAi), which down-regulates transcripts for any targeted gene, results in lethal and/or abnormal phenotypes for some, but not all, of these genes. Phenotypes are often unique and are manifested at different developmental stages, including embryonic, pupal and/or adult stages. The experiments presented in this dissertation reveal that while the vast majority of the CPAP3 genes serve distinct and essential functions affecting survival, molting or normal cuticle development. However, a minority of the CPAP1 and PMP family genes are indispensable for survival under laboratory conditions. Some of the non-essential genes may have functional redundancy or may be needed only under special circumstances such as exposure to stress or pathogens.
APA, Harvard, Vancouver, ISO, and other styles
9

Morcos, Karim M. "Genetic network parameter estimation using single and multi-objective particle swarm optimization." Thesis, Kansas State University, 2011. http://hdl.handle.net/2097/9207.

Full text
Abstract:
Master of Science<br>Department of Electrical and Computer Engineering<br>Sanjoy Das<br>Stephen M. Welch<br>Multi-objective optimization problems deal with finding a set of candidate optimal solutions to be presented to the decision maker. In industry, this could be the problem of finding alternative car designs given the usually conflicting objectives of performance, safety, environmental friendliness, ease of maintenance, price among others. Despite the significance of this problem, most of the non-evolutionary algorithms which are widely used cannot find a set of diverse and nearly optimal solutions due to the huge size of the search space. At the same time, the solution set produced by most of the currently used evolutionary algorithms lacks diversity. The present study investigates a new optimization method to solve multi-objective problems based on the widely used swarm-intelligence approach, Particle Swarm Optimization (PSO). Compared to other approaches, the proposed algorithm converges relatively fast while maintaining a diverse set of solutions. The investigated algorithm, Partially Informed Fuzzy-Dominance (PIFD) based PSO uses a dynamic network topology and fuzzy dominance to guide the swarm of dominated solutions. The proposed algorithm in this study has been tested on four benchmark problems and other real-world applications to ensure proper functionality and assess overall performance. The multi-objective gene regulatory network (GRN) problem entails the minimization of the coefficient of variation of modified photothermal units (MPTUs) across multiple sites along with the total sum of similarity background between ecotypes. The results throughout the current research study show that the investigated algorithm attains outstanding performance regarding optimization aspects, and exhibits rapid convergence and diversity.
APA, Harvard, Vancouver, ISO, and other styles
10

Ammar, Ron. "An Analysis of the Expression, Regulation and Interaction of Genes and Gene Products using Computational and Molecular Methods." Thesis, 2008. http://hdl.handle.net/1807/11130.

Full text
Abstract:
Bioinformatic methods were applied to address biological questions. Two new eFP browser web tools were constructed for the intuitive visualization of data from large-scale data sets. In addition, a predicted interactome was constructed for Arabidopsis thaliana and validated using a gene coexpression analysis. The Arabidopsis Interactions Viewer was created to enable access to and visualization of predicted and confirmed interactions in the Arabidopsis interactome. In a separate analysis short sequence matches were identified between introns and coding sequences in several model systems including Arabidopsis, human, C. elegans and 12 Drosophila species. Several hundred to thousands of matches were found near each other in terms of chromosomal location, and were termed Proximal Intron N-mer (PIN) matches. Sequence matches were conserved between 11 Drosophila species and D. melanogaster, suggesting a potential functional role. Novel plasmids were designed to test whether PIN matches are functional in vivo.
APA, Harvard, Vancouver, ISO, and other styles
11

Fortney, Kristen. "Bioinformatics Approaches to Biomarker and Drug Discovery in Aging and Disease." Thesis, 2012. http://hdl.handle.net/1807/34002.

Full text
Abstract:
Over the past two decades, high-throughput (HTP) technologies such as microarrays and mass spectrometry have fundamentally changed the landscape of aging and disease biology. They have revealed novel molecular markers of aging, disease state, and drug response. Some have been translated into the clinic as tools for early disease diagnosis, prognosis, and individualized treatment and response monitoring. Despite these successes, many challenges remain: HTP platforms are often noisy and suffer from false positives and false negatives; optimal analysis and successful validation require complex workflows; and the underlying biology of aging and disease is heterogeneous and complex. Methods from integrative computational biology can help diminish these challenges by creating new analytical methods and software tools that leverage the large and diverse quantity of publicly available HTP data. In this thesis I report on four projects that develop and apply strategies from integrative computational biology to identify improved biomarkers and therapeutics for aging and disease. In Chapter 2, I proposed a new network analysis method to identify gene expression biomarkers of aging, and applied it to study the pathway-level effects of aging and infer the functions of poorly-characterized longevity genes. In Chapter 4, I adapted gene-level HTP chemogenomic data to study drug response at the systems level; I connected drugs to pathways, phenotypes and networks, and built the NetwoRx web portal to make these data publicly available. And in Chapters 3 and 5, I developed a novel meta-analysis pipeline to identify new drugs that mimic the beneficial gene expression changes seen with calorie restriction (Chapter 3), or that reverse the pathological gene changes associated with lung cancer (Chapter 5). The projects described in this thesis will help provide a systems-level understanding of the causes and consequences of aging and disease, as well as new tools for diagnosis (biomarkers) and treatment (therapeutics).
APA, Harvard, Vancouver, ISO, and other styles
12

Tsai, Jennifer Ming-Jiun. "Structure-based Subfamily Classification of Homeodomains." Thesis, 2008. http://hdl.handle.net/1807/11169.

Full text
Abstract:
Eukaryotic DNA-binding proteins mediate many important steps in embryonic development and gene regulation. Consequently, a better understanding of these proteins would hopefully allow a more complete picture of gene regulation to be determined. In this study, a structure-based subfamily classification of the homeodomain family of DNA-binding proteins was undertaken in order to determine whether sub-groupings of a protein family could be identified that corresponded to differences in specific function, and identification of subfamily-determining residues was performed in order to gain some insight on functional differences via analysis of the residue properties. Subfamilies appear to have different specific DNA binding properties, according to DNA profiles obtained from TRANSFAC [1] and other sources in the literature. Subfamily-specific residues appear to be frequently associated with the protein-DNA interface and may influence DNA binding via interactions with the DNA phosphate backbone; these residues form a conserved profile uniquely identifying each subfamily.
APA, Harvard, Vancouver, ISO, and other styles
13

Hsieh, Chih-Cheng Sherry. "Characterization of Friable1-like Homologues in Arabidopsis using Bioinformatics and Reverse Genetics." Thesis, 2009. http://hdl.handle.net/1807/17516.

Full text
Abstract:
The FRIABLE1 (FRB1) gene is identified to be a novel glycosyltransferase involved in cell adhesion, based on reverse genetics and immunocytochemistry studies. A total of 31 FRB1 paralogues were found in Arabidopsis thaliana using a bioinformatics approach. The following expression analysis has revealed 6 FRB1 paralogues to be pollen-specific. One pollen-specific FRB1 paralogue, At1g14970, exhibits longer silique lengths when exposed to higher than normal temperature at 28oC in its T-DNA insertional knockout when compared to Columbia wildtype plants. This may be due to the loss of temperature sensing and the continuous stimulated pollen tube cell wall growth or the up-regulation of genes that encode other glycosyltransferases. Thus, the identification of FRB1 paralogues and homologues in both rice and poplar may have tremendous potential to increase their yield in global warming for agricultural and industrial benefits.
APA, Harvard, Vancouver, ISO, and other styles
14

He, David. "The Sequence and Function Relationship of Elastin: How Repetitive Sequences can Influence the Physical Properties of Elastin." Thesis, 2011. http://hdl.handle.net/1807/31780.

Full text
Abstract:
Elastin is an essential extracellular protein that is a key component of elastic fibres, providing elasticity to cardiac, dermal, and arterial tissues. During the development of the human cardiovascular system, elastin self-assembles before being integrated into fibres, undergoing no significant turnover during the human lifetime. Abnormalities in elastin can adversely affect its self-assembly, and may lead to malformed elastic fibres. Due to the longevity required of these fibres, even minor abnormalities may have a large cumulative effect over the course of a lifetime, leading to late-onset vascular diseases. This thesis project has identified important, over-represented repetitive elements in elastin which are believed to be important for the self-assembly and elastomeric properties of elastin. Initial studies of single nucleotide polymorphisms (SNPs) from the HapMap project and dbSNP resulted in a set of genetic variation sites in the elastin gene. Based on these studies, glycine to serine and lysine to arginine substitutions were introduced in elastin-like polypeptides. The self-assembly properties of the resulting elastin-like polypeptides were observed under microscope and measured using absorbance at 440nm. Assembled polypeptides were also cross-linked to form thin membranes whose mechanical and physical properties were measured and compared. These mutations resulted in markedly different behavior than wild-type elastin-like proteins, suggesting that mutations in the repetitive elements of the elastin sequence can lead to adverse changes in the physical and functional properties of the resulting protein. Using next-generation sequencing, patients with thoracic aortic aneurysms are being genotyped to discover polymorphisms which may adversely affect the self-assembly properties of elastin, providing a link between genetic variation in elastin and cardiovascular disease.
APA, Harvard, Vancouver, ISO, and other styles
15

Rodionov, Alexandr. "Acceleration of Coevolution Detection for Predicting Protein Interactions." Thesis, 2011. http://hdl.handle.net/1807/29605.

Full text
Abstract:
Protein function is the ultimate expression of the genetic code of every organism, and determining which proteins interact helps reveal their functions. MatrixMatchMaker (MMM) is a computational method of predicting protein-protein interactions that works by detecting co-evolution between pairs of proteins. Although MMM has several advanced features compared to other co-evolution-based methods, these come at the cost of high computation, and so the goal of this research is to improve the performance of MMM. First we redefine the computational problem posed by the method, and then develop a new algorithm to solve it, achieving a total speedup of 570x over the existing MMM algorithm for a biologically meaningful data set. We also develop hardware which has not yet succeeded in further improving the performance of MMM, but could serve as a platform that could lead to further gains.
APA, Harvard, Vancouver, ISO, and other styles
16

Chen, Chih-yu. "Identifying Tissue Specific Distal Regulatory Sequences in the Mouse Genome." Thesis, 2011. http://hdl.handle.net/1807/30544.

Full text
Abstract:
Epigenetic modifications, transcription factor (TF) availability and chromatin conformation influence how a genome is interpreted by the transcriptional machinery responsible for gene expression. Enhancers buried in non-coding regions are associated with significant differences in histone marks between different cell types. In contrast, gene promoters show more uniform modifications across cell types. In this report, enhancer identification is first carried out using an enhancer associated feature in mouse erythroid cells. Taking advantage of public domain ChIP-Seq data sets in mouse embryonic stem cells, an integrative model is then used to assess features in enhancer prediction, and subsequently locate enhancers. Significant associations with multiple TF bound loci, higher expression in the closest genes, and active enhancer marks support functionality and tissue-specificity of these enhancers. Motif enrichment analysis further determines known and novel TFs regulating the target cell type. Furthermore, the features identified can facilitate more accurate enhancer prediction in other cell types.
APA, Harvard, Vancouver, ISO, and other styles
17

Draceni, Yasmine. "Principes de l’évolution du réseau de l’homéostasie des protéines." Thèse, 2018. http://hdl.handle.net/1866/22273.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Louis-Jeune, Caroline. "Représentation et recherche de motifs cycliques et structuraux d’ARN connus dans les structures secondaires." Thèse, 2009. http://hdl.handle.net/1866/3126.

Full text
Abstract:
L'acide désoxyribonucléique (ADN) et l'acide ribonucléique (ARN) sont des polymères de nucléotides essentiels à la cellule. À l'inverse de l'ADN qui sert principalement à stocker l'information génétique, les ARN sont impliqués dans plusieurs processus métaboliques. Par exemple, ils transmettent l’information génétique codée dans l’ADN. Ils sont essentiels pour la maturation des autres ARN, la régulation de l’expression génétique, la prévention de la dégradation des chromosomes et le ciblage des protéines dans la cellule. La polyvalence fonctionnelle de l'ARN résulte de sa plus grande diversité structurale. Notre laboratoire a développé MC-Fold, un algorithme pour prédire la structure des ARN qu'on représente avec des graphes d'interactions inter-nucléotidiques. Les sommets de ces graphes représentent les nucléotides et les arêtes leurs interactions. Notre laboratoire a aussi observé qu'un petit ensemble de cycles d'interactions à lui seul définit la structure de n'importe quel motif d'ARN. La formation de ces cycles dépend de la séquence de nucléotides et MC-Fold détermine les cycles les plus probables étant donnée cette séquence. Mon projet de maîtrise a été, dans un premier temps, de définir une base de données des motifs structuraux et fonctionnels d'ARN, bdMotifs, en terme de ces cycles. Par la suite, j’ai implanté un algorithme, MC-Motifs, qui recherche ces motifs dans des graphes d'interactions et, entre autres, ceux générés par MC-Fold. Finalement, j’ai validé mon algorithme sur des ARN dont la structure est connue, tels que les ARN ribosomaux (ARNr) 5S, 16S et 23S, et l'ARN utilisé pour prédire la structure des riborégulateurs. Le mémoire est divisé en cinq chapitres. Le premier chapitre présente la structure chimique, les fonctions cellulaires de l'ARN et le repliement structural du polymère. Dans le deuxième chapitre, je décris la base de données bdMotifs. Dans le troisième chapitre, l’algorithme de recherche MC-Motifs est introduit. Le quatrième chapitre présente les résultats de la validation et des prédictions. Finalement, le dernier chapitre porte sur la discussion des résultats suivis d’une conclusion sur le travail.<br>Deoxyribonucleic acid (DNA) and ribonucleic acid (RNA) are polymers of nucleotides essential for the survival of the cell. Contrary to DNA, whose main role is to store genetic information, RNA is involved in multiple metabolic processes. For example, RNA is involved in the transfer of information from DNA to protein, the processing and modification of other RNAs, the regulation of gene expression, the end-maintenance of chromosomes, and the sorting of proteins within the cell. This functional versatility of RNA comes from its structural diversity. Our laboratory developed MC-Fold, an algorithm that predicts RNA structures by representing them with nucleotide interaction graphs. The nodes in these graphs represent the nucleotides, and the edges the interactions between them. Our laboratory also observed that a limited number of interaction cycles can define the structure of any RNA motif. The formation of these cycles is determined by the nucleotide sequence and MC-Fold determines the most likely cycles based on that sequence. In this Master Degree project, I first built a database of structural and functional RNA motifs, bdMotifs, based on their constituent cycles. Then, I implemented an algorithm, MC-Motifs, which detects motifs within interaction graphs generated either by MC-Fold or by any other method. Finally, I validated my algorithm on known RNA structures such as the 5S, 16S and 23S ribosomal RNA (rRNA) and predicted structure of riboswitches. The Master thesis is divided into five chapters. The first chapter presents the chemical structure of RNA, its cellular functions and the structural folding of the polymer. In the second chapter, the database bdMotifs is described. In the third chapter, the MC-Motifs algorithm is introduced. In the fourth chapter, I present the results of MC-Motifs. Finally, in the last chapter, I discuss theses results and I give a conclusion on the project.
APA, Harvard, Vancouver, ISO, and other styles
19

Shabtai, Daniel. "An Algorithm for Chemical Genomic Profiling that Minimizes Batch Effects: Bucket Evaluations." Thesis, 2011. http://hdl.handle.net/1807/32921.

Full text
Abstract:
Chemical genomics is an interdisciplinary field that combines small molecule perturbation with genomics to understand gene function and to study the mode(s) of drug action. Existing methods for correlating chemical genomic profiles are not ideal as they often require one to define the disrupting effects, commonly known as batch effects. These effects are not always known, and they can mask true biological differences. I present a method, Bucket Evaluations (BE), which surmounts these problems. This method is a non-parametric correlation approach, which is suitable for locating correlations in somewhat perturbed datasets such as chemical genomic profiles. BE can be used on other datasets such as those obtained via gene expression profiling and performs well on both array-based and sequence based readouts. Using BE, along with various correlation methods, on a collection of datasets, showed it to be highly accurate for locating similarity between experiments.
APA, Harvard, Vancouver, ISO, and other styles
20

Gendron, Louis. "Adaptation de la levure à la suite des perturbations du mécanisme de contrôle de qualité de l'ARN." Thèse, 2019. http://hdl.handle.net/1866/23638.

Full text
Abstract:
The life-cycle of RNA is determined by several processing steps, which allow the cell to export and translate a coding transcript. The cell has developed an astonishingly complex mechanism to ensure the integrity of RNA processing steps. The quality control mechanism of RNA balances the biosynthesis and degradation of various transcripts, adding another layer of gene regulation to the complex system of gene expression. The exosome is a central piece of the RNA quality control mechanism as it degrades many of the aberrant or non-functional RNAs in the nucleus and the cytoplasm. This project characterizes and highlight a response to mutation of components from the RNA quality control mechanism in Saccharomyces cerevisiae. These perturbations include functional components of the exosome (Csl4 and Dis3), a cofactor of the nuclear exosome (Rrp6), an essential protein for pre-rRNA processing (Enp1) and a component of RNA export machinery (Srm1). Here, I present bioinformatics approaches to characterize the cellular response at a level of transcript expression and polyadenylation size. The stress response embedded in the gene expression profile is highly similar between the mutants. This work suggests a generic response to a failure in different components of the RNA quality control machinery.<br>Le cycle de vie des ARN est déterminé par différentes étapes permettant à la cellule d’exporter et de traduire un transcrit codant. La cellule a développé un mécanisme incroyablement complexe pour s’assurer de l’intégrité des étapes de maturation de l’ARN. Le mécanisme de contrôle de qualité balance la biosynthèse et la dégradation de différents transcrits, ce qui ajout un niveau de régulation au système de l’expression génique. L’exosome est une pièce centrale du mécanisme de contrôle de qualité de l’ARN alors qu’elle dégrade une grande partie des transcrits aberrants ou non-fonctionnels dans le noyau et le cytoplasme. Ce projet caractérise et souligne la réponse cellulaire à la suite de la mutation de composantes du mécanisme de contrôle de qualité de l’ARN chez Saccharomyces cerevisiae. Ces perturbations comportent des composantes fonctionnelles du complexe de l’exosome (Csl4 et Dis3), un cofacteur de l’exosome nucléaire (Rrp6), une protéine essentielle pour la maturation des pré-ARNr (Enp1) et une composante de la machinerie d’export de l’ARN (Srm1). Ici, je présente des approches bio-informatiques pour caractériser la réponse cellulaire au niveau de l’expression des transcrits et de la taille des segments polyadénylés. La réponse au stress cellulaire intégré dans le profil d’expression du génome est très similaire entre les mutants. Ce travail suggère une réponse générique à la suite de la perturbation de différentes composantes du mécanisme de contrôle de qualité de l’ARN.
APA, Harvard, Vancouver, ISO, and other styles
21

Bocco, Steven Sêton. "Évolution à fine échelle des sites d'épissage des introns dans les gènes des oomycètes." Thèse, 2015. http://hdl.handle.net/1866/13445.

Full text
Abstract:
Les introns sont des portions de gènes transcrites dans l’ARN messager, mais retirées pendant l’épissage avant la synthèse des produits du gène. Chez les eucaryotes, on rencontre les introns splicéosomaux, qui sont retirés de l’ARN messager par des splicéosomes. Les introns permettent plusieurs processus importants, tels que l'épissage alternatif, la dégradation des ARNs messagers non-sens, et l'encodage d'ARNs fonctionnels. Leurs rôles nous interrogent sur l'influence de la sélection naturelle sur leur évolution. Nous nous intéressons aux mutations qui peuvent modifier les produits d'un gène en changeant les sites d'épissage des introns. Ces mutations peuvent influencer le fonctionnement d'un organisme, et constituent donc un sujet d'étude intéressant, mais il n'existe actuellement pas de logiciels permettant de les étudier convenablement. Le but de notre projet était donc de concevoir une méthode pour détecter et analyser les changements des sites d'épissage des introns splicéosomaux. Nous avons finalement développé une méthode qui repère les évènements évolutifs qui affectent les introns splicéosomaux dans un jeu d'espèces données. La méthode a été exécutée sur un ensemble d'espèces d'oomycètes. Plusieurs évènements détectés ont changé les sites d’épissage et les protéines, mais de nombreux évènements trouvés ont modifié les introns sans affecter les produits des gènes. Il manque à notre méthode une étape finale d'analyse approfondie des données récoltées. Cependant, la méthode actuelle est facilement reproductible et automatise l'analyse des génomes pour la détection des évènements. Les fichiers produits peuvent ensuite être analysés dans chaque étude pour répondre à des questions spécifiques.<br>Introns are portions of genes transcribed into messenger RNA, but removed during RNA splicing. In eukaryotes, they are called spliceosomal introns as they are removed by spliceosomes. Introns allow many important processes such as alternative splicing, nonsense-mediated decay and functional-RNA coding. These roles leads to the question of the influence of natural selection on evolution of introns. We focus on mutations that are able to change gene products by modifing introns splice sites. These mutations seems to be an interesting topic as they can affect proteins, but there is currently no software to study them properly. The aim of our project was to design a method to detect and analyze changes in splice sites of spliceosomal introns. We finally developed a method that locates the evolutionary events on splice sites of spliceosomal introns in a given species set. The method was performed on a set of oomycetes. Several detected events change splice sites and proteins, but there is also many events that seems to modify introns without affecting gene products. Our method lacks a final step for thorough analysis of the collected events. However, the current method is easily reusable and automates genome analysis for the detection of events. The resulting files can then be analyzed in each study to answer specific questions.
APA, Harvard, Vancouver, ISO, and other styles
22

Poujol, Raphael. "Estimation des corrélations phylogénétiques entre paramètres d'évolution moléculaire et Traits d'histoire de vie." Thèse, 2013. http://hdl.handle.net/1866/9228.

Full text
Abstract:
Depuis quelques années, l'évolution moléculaire cherche à caractériser les variations et l'intensité de la sélection grâce au rapport entre taux de substitution synonyme et taux de substitution non-synonyme (dN/dS). Cette mesure, dN/dS, a permis d'étudier l'histoire de la variation de l'intensité de la sélection au cours du temps ou de détecter des épisodes de la sélection positive. Les liens entre sélection et variation de taille efficace interfèrent cependant dans ces mesures. Les méthodes comparatives, quant a elle, permettent de mesurer les corrélations entre caractères quantitatifs le long d'une phylogénie. Elles sont également utilisées pour tester des hypothèses sur l'évolution corrélée des traits d'histoire de vie, mais pour être employées pour étudier les corrélations entre traits d'histoire de vie, masse, taux de substitution ou dN/dS. Nous proposons ici une approche combinant une méthode comparative basée sur le principe des contrastes indépendants et un modèle d'évolution moléculaire, dans un cadre probabiliste Bayésien. Intégrant, le long d'une phylogénie, sur les reconstructions ancestrales des traits et et de dN/dS nous estimons les covariances entre traits ainsi qu'entre traits et paramètres du modèle d'évolution moléculaire. Un modèle hiérarchique, a été implémenté dans le cadre du logiciel coevol, publié au cours de cette maitrise. Ce modèle permet l'analyse simultané de plusieurs gènes sans perdre la puissance donnée par l'ensemble de séquences. Un travail deparallélisation des calculs donne la liberté d'augmenter la taille du modèle jusqu'à l'échelle du génome. Nous étudions ici les placentaires, pour lesquels beaucoup de génomes complets et de mesures phénotypiques sont disponibles. À la lumière des théories sur les traits d'histoire de vie, notre méthode devrait permettre de caractériser l'implication de groupes de gènes dans les processus biologique liés aux phénotypes étudiés.<br>In recent years, molecular evolution seeks to characterize the variation and intensity of selection through the ratio between non-synonymous and synonymous substitution rates (dN/dS). The dN/dS measure was either used to study the history of the variation of the intensity of selection over time or to detect episodes of positive selection. Correlations between selection and variations of the effective population size interfere in these measurements. The Comparative method can measure correlations between quantitative traits along a phylogeny. They are also be used to test hypotheses of correlated evolution of life history traits, like the body mass, and the substitution rate. We propose an approach combining the comparative method based on the principle of independent contrasts and a model of molecular evolution in a Bayesian probabilistic framework. By integrating along a phylogeny both ancestral reconstructions of lines and of dN/dS we estimate the covariance among traits and between traits and parameters of the model of molecular evolution. A hierarchical model was implemented in the software coevol published during this master. This model allows the simultaneous analysis of multiple genes within a single model. Parallel calculations allow increasing the size of the model to the genome scale. We studied placental mammals, where many complete genomes and phenotypic measurements are available. Based on theories of life history traits, our method is expected to characterize the association of groups of genes in biological processes related to the studied phenotypes.
APA, Harvard, Vancouver, ISO, and other styles
23

Cherkaoui, Sarah. "Développement d’une méthode bio-informatique permettant de relier les gènes aux métabolites." Thèse, 2015. http://hdl.handle.net/1866/13789.

Full text
Abstract:
L’objectif de ce projet était de faire le lien entre gènes et métabolites afin d’éventuellement proposer des métabolites à mesurer en lien avec la fonction de gènes. Plus particulièrement, nous nous sommes intéressés aux gènes codant pour des protéines ayant un impact sur le métabolisme, soit les enzymes qui catalysent les réactions faisant partie intégrante des voies métaboliques. Afin de quantifier ce lien, nous avons développé une méthode bio-informatique permettant de calculer la distance qui est définie comme le nombre de réactions entre l’enzyme encodée par le gène et le métabolite dans la carte globale du métabolisme de la base de données Kyoto Encyclopedia of Genes and Genomes (KEGG). Notre hypothèse était que les métabolites d’intérêt sont des substrats/produits se trouvant à proximité des réactions catalysées par l’enzyme encodée par le gène. Afin de tester cette hypothèse et de valider la méthode, nous avons utilisé les études d’association pangénomique combinées à la métabolomique (mGWAS) car elles rapportent des associations entre variants génétiques, annotés en gènes, et métabolites mesurés. Plus précisément, la méthode a été appliquée à l’étude mGWAS par Shin et al. Bien que la couverture des associations de Shin et al. était limitée (24/299), nous avons pu valider de façon significative la proximité entre gènes et métabolites associés (P<0,01). En somme, cette méthode et ses développements futurs permettront d’interpréter de façon quantitative les associations mGWAS, de prédire quels métabolites mesurer en lien avec la fonction d’un gène et, plus généralement, de permettre une meilleure compréhension du contrôle génétique sur le métabolisme.<br>The objective of this project was to link genes and metabolites in order to ultimately predict which metabolites to measure in order to adequately reflect the function of a given gene. Specifically, we were interested in genes, which code for proteins that regulate substrate metabolism, hence enzymes that catalyze reactions that are part of metabolic pathways. In order to quantify this link, we have developed a bioinformatics method to calculate a distance, which is defined as the number of reactions separating a given selected gene-encoded enzyme and its metabolite of interest in Kyoto Encyclopedia of Genes and Genomes (KEGG) database’s metabolic overview map. Our hypothesis was that metabolites of interest are products/substrates found at proximity of the reactions catalyzed by the selected gene-encoded enzyme. In order to test our hypothesis and validate the method, we have used genome-wide association study of metabolites levels (mGWAS) because these studies report associations between genetic variants, annotated to genes, and measured metabolites. More specifically, we used the mGWAS conducted by Shin et al. Even though the coverage of the associations reported by Shin et al. was limited (24/299), we significantly validated the proximity between gene-metabolite associated pairs (P<0.01). Overall, the method and its future developments will allow the quantitative interpretation of mGWAS associations, predict which metabolite to measure with regards to the function of a gene and, in general, enable a better understanding of the genetic control of metabolism.
APA, Harvard, Vancouver, ISO, and other styles
24

Caron, Maxime. "Conception de microARNs pour attenuer l'expression de genes." Thèse, 2008. http://hdl.handle.net/1866/2655.

Full text
Abstract:
Les microARNs appartiennent à la famille des petits ARNs non-codants et agissent comme inhibiteurs des ARN messagers et/ou de leurs produits protéiques. Les mi- croARNs sont différents des petits ARNs interférants (siARN) car ils atténuent l’ex- pression au lieu de l’éliminer. Dans les dernières années, de nombreux microARNs et leurs cibles ont été découverts chez les mammifères et les plantes. La bioinforma- tique joue un rôle important dans ce domaine, et des programmes informatiques de découvertes de cibles ont été mis à la disposition de la communauté scientifique. Les microARNs peuvent réguler chacun des centaines de gènes, et les profils d’expression de ces derniers peuvent servir comme classificateurs de certains cancers. La modélisation des microARNs artificiels est donc justifiable, où l’un pourrait cibler des oncogènes surexprimés et promouvoir une prolifération de cellules en santé. Un outil pour créer des microARNs artificiels, nommé MultiTar V1.0, a été créé et est disponible comme application web. L’outil se base sur des propriétés structurelles et biochimiques des microARNs et utilise la recherche tabou, une métaheuristique. Il est démontré que des microARNs conçus in-silico peuvent avoir des effets lorsque testés in-vitro. Les sé- quences 3’UTR des gènes E2F1, E2F2 et E2F3 ont été soumises en entrée au programme MultiTar, et les microARNs prédits ont ensuite été testés avec des essais luciférases, des western blots et des courbes de croissance cellulaire. Au moins un microARN artificiel est capable de réguler les trois gènes par essais luciférases, et chacun des microARNs a pu réguler l’expression de E2F1 et E2F2 dans les western blots. Les courbes de crois- sance démontrent que chacun des microARNs interfère avec la croissance cellulaire. Ces résultats ouvrent de nouvelles portes vers des possibilités thérapeutiques.<br>MicroRNAs belong to the family of small non-coding RNAs and act as down regula- tors of messenger RNAs and/or their protein products. microRNAs differ from siRNAs by downregulating instead of shutting down. In recent years, numerous microRNAs and their targets have been found in mammals and plants. Bioinformatics plays a big role in this field, as software has emerged to find new microRNA targets. Each individual microRNA can regulate hundreds of genes, and it has been shown that microRNA expression profiles can classify human cancers. The need for artificially created mi- croRNAs is then justified, as one could target overexpressed oncogenes and promote healthy cell proliferation. MultiTar V1.0, a tool for creating artificial microRNAs, has been implemented and is available as a web application. The tool relies on structural and biological properties of microRNAs and uses a Tabusearch metaheuristic. A typical biological problem is presented and it is shown that an in-silico microRNA has in-vitro effects. The 3’UTR sequences of E2F1, E2F2 and E2F3 were given as input to the tool, and predicted microRNAs were then tested using luciferase essays, western blots and growth curves. At least one microRNA is able to regulate the three genes with luciferase essays and all of the created microRNAs were able to regulate the expres- sion of E2F1 and E2F2 with western blots. Growth curves were also studied in order to investigate overall biological effects, and reduction in growth was observed for all solutions. Results obtained with the predicted microRNAs and the target genes open a new door into therapeutic possibilities.
APA, Harvard, Vancouver, ISO, and other styles
25

Lefebvre, François. "Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression." Thèse, 2011. http://hdl.handle.net/1866/5871.

Full text
Abstract:
La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle. Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique.<br>Microarrays remain an important tool for the measurement of gene expression, and a myriad of methods for their pre-processing or statistical testing of differential expression has been proposed in the past. However, insufficient and sometimes contradictory evidence has prevented the emergence of a strong consensus over a preferred methodology. This leaves microarray practitioners to somewhat arbitrarily decide which method should be used to analyze their data. Here we present a novel approach to the problem of comparing methods for the identification of differentially expressed genes. Over eight hundred analytic pipelines were applied to more than a hundred independent microarray experiments. The accuracy of each analytic pipeline was assessed by measuring the average level of co-regulation uncovered across all data sets. This analysis thus relies on a varied set of biologically relevant data, does not confound reproducibility for accuracy and can easily be extended to future analytic pipelines. This procedure identified FARMS summarization and the TREAT gene ordering statistic as algorithms significantly more accurate than other alternatives. Most interestingly, our results corroborate recent findings about the importance of taking the magnitude of change into account along with an assessment of statistical significance.
APA, Harvard, Vancouver, ISO, and other styles
26

Boufaden, Asma. "Prédiction de boucles de régulation associant microARN et gènes régulés par le récepteur de l'acide rétinoïque dans le cancer du sein." Thèse, 2011. http://hdl.handle.net/1866/5962.

Full text
Abstract:
Le récepteur de l'acide rétinoïque RAR est une protéine de la superfamille des récepteurs nucléaires liant le ligand acide rétinoïque (AR). En présence de son ligand, RAR induit la transcription de ses gènes cibles alors qu'en son absence la transcription est inhibée. Le mécanisme de régulation de RAR est altéré dans les lignées cellulaires humaines de carcinome mammaire dû à une baisse de capacité de synthèse de l'AR. Aussi, l'expression des microARN (miR) est perturbée dans le cancer du sein et un grand nombre de gènes ont été identifiés, après une analyse in-silico, comme des cibles prédites des miRs. Ces derniers peuvent être régulés pas des facteurs de transcription et ils sont capables d'inhiber la prolifération cellulaire et d'induire l'apoptose via la régulation de leurs cibles. Ainsi, les miRs peuvent jouer un rôle dans le mécanisme de régulation de RAR et être impliqués dans des boucles de régulation avec ce récepteur. Dans le cadre de ce travail, nous décrivons une approche développée pour prédire et caractériser des circuits de régulation au niveau transcriptionnel et post-transcriptionnel dans le cancer du sein. Nous nous sommes intéressés aux boucles de régulation de type feed-forward où RAR régule un miR et en commun ils régulent un ensemble de gènes codants pour des protéines dans les cellules tumorales mammaires MCF7 et SKBR3. Ces circuits ont été construits en combinant des données de ChIP-chip de RAR et des données de micro-puces d'ADN tout en utilisant des outils in-silico de prédiction des gènes cibles de miRs. Afin de proposer le modèle approprié de régulation, une analyse in-silico des éléments de réponse de l'AR (RARE) dans les promoteurs des miRs est réalisée. Cette étape permet de prédire si la régulation par RAR est directe ou indirecte. Les boucles ainsi prédites sont filtrées en se basant sur des données d'expression de miR existantes dans des bases de données et dans différentes lignées cellulaires, en vue d'éliminer les faux positifs. De plus, seuls les circuits pertinents sur le plan biologique et trouvés enrichis dans Gene Ontology sont retenus. Nous proposons également d'inférer l'activité des miRs afin d'orienter leur régulation par RAR. L'approche a réussi à identifier des boucles validées expérimentalement. Plusieurs circuits de régulation prédits semblent être impliqués dans divers aspects du développement de l'organisme, de la prolifération et de la différenciation cellulaire. De plus, nous avons pu valider que let-7a peut être induit par l'AR dans les MCF7.<br>The retinoic acid receptor (RAR) is a type of nuclear receptor that is activated by the ligand retinoic acid (RA). In the presence of ligand, RAR induces the transcription of its targets whereas in the absence of ligand the transcription is blocked. The mechanism of regulation of RAR is altered in breast cancer cell lines due to a reduced capacity to synthesize RA. Also aberrant patterns of microRNA (miR) expression have been reported in human breast cancer and a number of genes involved in breast cancer progression have been identified by in-silico analysis to be targets of miRs. The miRs could be controlled by transcription factors and via the regulation of their mRNA targets, the miRs could promote apoptosis and even inhibit cell proliferation. Hence, the miRs may play a role in the mechanism of regulation of RAR and could be involved in regulatory loops with this receptor. In this work, we describe an approach developed for the prediction and characterization of mixed transcriptional and post-transcriptional regulatory circuits in breast cancer. We concentrated in particular on feed-forward loops, in which RAR regulates a miR, and together with it, a set of joint target protein coding genes in human breast cancer cell lines MCF7 and SKBR3. These loops are constructed by combining ChIP-chip datasets of RAR with datasets of DNA microarrays and by using miR target prediction tools. In order to predict the appropriate model of regulation, in-silico analysis was performed to look for retinoic acid response element (RARE) in miR promoter. This step could identify if the regulation by RAR is direct or indirect. The regulatory loops will be then filtered, in order to reduce the number of false positive, based on databases designed to represent human miR expression profiles in different tissues or cell types. Moreover, only biologically relevant circuits enriched in Gene Ontology were retained. Also, we propose to infer miR activity in order to detect their regulation by RAR. This approach was able to find some existing experimental data. Several regulatory circuits seem to be involved in various aspects of organism development, proliferation and cell differentiation. Furthermore, we were able to validate the induction of let-7a by RA in MCF7 cells.
APA, Harvard, Vancouver, ISO, and other styles
27

Wolting, Cheryl. "Development and Implementation of Gene Ontology Cluster Analysis of Protein Array Data." Thesis, 2010. http://hdl.handle.net/1807/32959.

Full text
Abstract:
Decoding the genomes from organisms that encompass all taxonomies provides the foundation for extensive, large scale studies of biological molecules such as RNA, protein and carbohydrates. The high-throughput studies facilitated by the existence of these genome sequences necessitate the development of new analytic methods for the interpretation of large sets of results. The work herein focuses on the development of a novel clustering method for the analysis of protein array results and examines its utilization in the analysis of integrated interaction data sets. Sets of proteins that interact with a molecule of interest were clustered according to their functional similarity. The simUI distance metric in the statistical analysis package BioConductor was applied to measure the similarity of two proteins utilizing the assembly of their Gene Ontology annotation. Clusters were identified by partitioning around medoids and interpreted using the summary label provided by the Gene Ontology annotation of the medoid. The utility of the method was tested on two published yeast protein array data sets and shown to allow interpretation of the data to yield novel biological hypotheses. We performed a protein array screen using the E3 ubiquitin ligase and PDZ domain-containing protein LNX1. We combined these results with other published LNX1 interactors to produce a set of 220 proteins that was clustered according to Gene Ontology annotation. From the clustering results, 14 proteins were selected for subsequent examination by co-immunoprecipitation, of which 8 proteins were confirmed as LNX1 interactors. Recognition of 6 proteins by specific LNX1 PDZ domains was confirmed by fusion protein pull-downs. This work supports the role of LNX1 as a signalling scaffold. The interpretation of protein array results using our novel clustering method facilitated the identification of candidate molecules for subsequent experimental analysis. Thus our analytical method facilitates identification of biologically relevant molecules within a large data set, making this method an essential component of complex, high-throughput experimentation.
APA, Harvard, Vancouver, ISO, and other styles
28

Therrien-Laperrière, Sandra. "Développement d’un outil bio-informatique pour l’annotation des associations entre gènes et métabolites basée sur les voies métaboliques." Thèse, 2017. http://hdl.handle.net/1866/20735.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Pacis, Alain. "Epigenetic regulation of innate immune responses to infection." Thèse, 2018. http://hdl.handle.net/1866/21189.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Boisvert, Jacques. "A robust algorithm for segmenting fluorescence images and its application to single-molecule counting." Thèse, 2014. http://hdl.handle.net/1866/11741.

Full text
Abstract:
La microscopie par fluorescence de cellules vivantes produit de grandes quantités de données. Ces données sont composées d’une grande diversité au niveau de la forme des objets d’intérêts et possèdent un ratio signaux/bruit très bas. Pour concevoir un pipeline d’algorithmes efficaces en traitement d’image de microscopie par fluorescence, il est important d’avoir une segmentation robuste et fiable étant donné que celle-ci constitue l’étape initiale du traitement d’image. Dans ce mémoire, je présente MinSeg, un algorithme de segmentation d’image de microscopie par fluorescence qui fait peu d’assomptions sur l’image et utilise des propriétés statistiques pour distinguer le signal par rapport au bruit. MinSeg ne fait pas d’assomption sur la taille ou la forme des objets contenus dans l’image. Par ce fait, il est donc applicable sur une grande variété d’images. Je présente aussi une suite d’algorithmes pour la quantification de petits complexes dans des expériences de microscopie par fluorescence de molécules simples utilisant l’algorithme de segmentation MinSeg. Cette suite d’algorithmes a été utilisée pour la quantification d’une protéine nommée CENP-A qui est une variante de l’histone H3. Par cette technique, nous avons trouvé que CENP-A est principalement présente sous forme de dimère.<br>Live-cell fluorescence microscopy produces high amounts of data with a high variability in shapes at low signal-to-noise ratio. An efficient design of image analysis pipelines requires a reliable and robust initial segmentation step that needs little parameter fine-tuning. Here, I present a segmentation algorithm called MinSeg for fluorescence image data that relies on minimal assumptions about the image, and uses statistical considerations to distinguish signal from background. More importantly, the algorithm does not make assumptions about feature size or shape, and is thus universally applicable. I also present a pipeline for the quantification of small complexes with single-molecule fluorescence microscopy using this segmentation algorithm as the first step of the workflow. This pipeline was used for the quantification of a small histone H3 variant protein called CENP-A. We found that the CENP-A nucleosomes are dimers.
APA, Harvard, Vancouver, ISO, and other styles
31

El, Korbi Amell. "Identification de caractéristiques communes et rares dans les ARN structurés dans la base de données Rfam." Thèse, 2015. http://hdl.handle.net/1866/13798.

Full text
Abstract:
Les ARN non codants (ARNnc) sont des transcrits d'ARN qui ne sont pas traduits en protéines et qui pourtant ont des fonctions clés et variées dans la cellule telles que la régulation des gènes, la transcription et la traduction. Parmi les nombreuses catégories d'ARNnc qui ont été découvertes, on trouve des ARN bien connus tels que les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les snoARN et les microARN (miARN). Les fonctions des ARNnc sont étroitement liées à leurs structures d’où l’importance de développer des outils de prédiction de structure et des méthodes de recherche de nouveaux ARNnc. Les progrès technologiques ont mis à la disposition des chercheurs des informations abondantes sur les séquences d'ARN. Ces informations sont accessibles dans des bases de données telles que Rfam, qui fournit des alignements et des informations structurelles sur de nombreuses familles d'ARNnc. Dans ce travail, nous avons récupéré toutes les séquences des structures secondaires annotées dans Rfam, telles que les boucles en épingle à cheveux, les boucles internes, les renflements « bulge », etc. dans toutes les familles d'ARNnc. Une base de données locale, RNAstem, a été créée pour faciliter la manipulation et la compilation des données sur les motifs de structure secondaire. Nous avons analysé toutes les boucles terminales et internes ainsi que les « bulges » et nous avons calculé un score d’abondance qui nous a permis d’étudier la fréquence de ces motifs. Tout en minimisant le biais de la surreprésentation de certaines classes d’ARN telles que l’ARN ribosomal, l’analyse des scores a permis de caractériser les motifs rares pour chacune des catégories d’ARN en plus de confirmer des motifs communs comme les boucles de type GNRA ou UNCG. Nous avons identifié des motifs abondants qui n’ont pas été étudiés auparavant tels que la « tetraloop » UUUU. En analysant le contenu de ces motifs en nucléotides, nous avons remarqué que ces régions simples brins contiennent beaucoup plus de nucléotides A et U. Enfin, nous avons exploré la possibilité d’utiliser ces scores pour la conception d’un filtre qui permettrait d’accélérer la recherche de nouveaux ARN non-codants. Nous avons développé un système de scores, RNAscore, qui permet d’évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents types de contrôles.<br>Noncoding RNAs (ncRNAs) are RNA transcripts that are not translated into proteins yet they play important functional roles in the cell including gene regulation, transcription and translation. Among the many categories of ncRNAs that were discovered, we find the well-known ribosomal RNA (rRNA), transfer RNA (tRNA), snoRNA and microRNAs (miRNA). The functions of ncRNAs are tightly linked to their structural features. Thus, understanding and predicting RNA structure as well as developing methods to search for new ncRNAs help to gain insight into these molecules. Technological advances have made available abundant sequence information accessible in databases such as Rfam, which provides alignments and structural information of many ncRNA families. In this research project, we retrieved the information from the Rfam database about the sequences of all secondary structures such as hairpin loops, internal loops, bulges, etc. in all RNA families. A local database, RNAstem, was created to facilitate the use and manipulation of information about secondary structure motifs. We analyzed hairpin loops, bulges and internal loops using the compiled data about the frequencies of occurrence of each loop or bulge and calculated a frequency score. The frequency score is aimed to be an indicator for the abundance of a specific secondary structure motif. While minimizing the bias caused by the high redundancy of some RNA classes as ribosomal RNAs, the frequency score allowed us to identify the rare motifs in each category as well as the common ones. Our findings about the abundant motifs confirm what is already known from previous studies (ex. abundant GNRA or UNCG tetraloops). We found very large gaps between the most abundant and rare RNA structural features. Moreover, we discovered that "A" and "U" dominate single stranded RNA regions, whether they are bulges or loops. We further explored the possibility of using this data to improve current prediction tools for ncRNAs by applying a filter to new candidates. We developed a score system, RNAscore, that evaluates RNAs depending on their motif contents and we tested the program with many different controls.
APA, Harvard, Vancouver, ISO, and other styles
32

C-Parent, Gabriel. "Unfolding RNA 3D structures for secondary structure prediction benchmarking." Thèse, 2017. http://hdl.handle.net/1866/19544.

Full text
Abstract:
Les acides ribonucléiques (ARN) forment des structures tri-dimensionnelles complexes stabilisées par la formation de la structure secondaire (2D), elle-même formée de paires de bases. Plusieurs méthodes computationnelles ont été créées dans les dernières années afin de prédire la structure 2D d’ARNs, en partant de la séquence. Afin de simplifier le calcul, ces méthodes appliquent généralement des restrictions sur le type de paire de bases et la topologie des structures 2D prédites. Ces restrictions font en sorte qu’il est parfois difficile de savoir à quel point la totalité des paires de bases peut être représentée par ces structures 2D restreintes. MC-Unfold fut créé afin de trouver les structures 2D restreintes qui pourraient être associées à une structure secondaire complète, en fonction des restrictions communément utilisées par les méthodes de prédiction de structure secondaire. Un ensemble de 321 monomères d’ARN totalisant plus de 4223 structures fut assemblé afin d’évaluer les méthodes de prédiction de structure 2D. La majorité de ces structures ont été déterminées par résonance magnétique nucléaire et crystallographie aux rayons X. Ces structures ont été dépliés par MC-Unfold et les structures résultantes ont été comparées à celles prédites par les méthodes de prédiction. La performance de MC-Unfold sur un ensemble de structures expérimentales est encourageante. En moins de 5 minutes, 96% des 227 structures ont été complètement dépliées, le reste des structures étant trop complexes pour être déplié rapidement. Pour ce qui est des méthodes de prédiction de structure 2D, les résultats indiquent qu’elles sont capable de prédire avec un certain succès les structures expérimentales, particulièrement les petites molécules. Toutefois, si on considère les structures larges ou contenant des pseudo-noeuds, les résultats sont généralement défavorables. Les résultats obtenus indiquent que les méthodes de prédiction de structure 2D devraient être utilisées avec prudence, particulièrement pour de larges molécules.<br>Ribonucleic acids (RNA) adopt complex three dimensional structures which are stabilized by the formation of base pairs, also known as the secondary (2D) structure. Predicting where and how many of these interactions occur has been the focus of many computational methods called 2D structure prediction algorithms. These methods disregard some interactions, which makes it difficult to know how well a 2D structure represents an RNA structure, especially when large amounts of base pairs are ignored. MC-Unfold was created to remove interactions violating the assumptions used by prediction methods. This process, named unfolding, extends previous planarization and pseudoknot removal methods. To evaluate how well computational methods can predict experimental structures, a set of 321 RNA monomers corresponding to more than 4223 experimental structures was acquired. These structures were mostly determined using nuclear magnetic resonance and X-ray crystallography. MC-Unfold was used to remove interactions the prediction algorithms were not expected to predict. These structures were then compared with the structured predicted. MC-Unfold performed very well on the test set it was given. In less than five minutes, 96% of the 227 structure could be exhaustively unfolded. The few remaining structures are very large and could not be unfolded in reasonable time. MC-Unfold is therefore a practical alternative to the current methods. As for the evaluation of prediction methods, MC-Unfold demonstrated that the computational methods do find experimental structures, especially for small molecules. However, when considering large or pseudoknotted molecules, the results are not so encouraging. As a consequence, 2D structure prediction methods should be used with caution, especially for large structures.
APA, Harvard, Vancouver, ISO, and other styles
33

Mercier, Eloi. "Développement d’outils pour l’analyse de données de ChIP-seq et l’identification des facteurs de transcription." Thèse, 2011. http://hdl.handle.net/1866/6038.

Full text
Abstract:
La méthode ChIP-seq est une technologie combinant la technique de chromatine immunoprecipitation avec le séquençage haut-débit et permettant l’analyse in vivo des facteurs de transcription à grande échelle. Le traitement des grandes quantités de données ainsi générées nécessite des moyens informatiques performants et de nombreux outils ont vu le jour récemment. Reste cependant que cette multiplication des logiciels réalisant chacun une étape de l’analyse engendre des problèmes de compatibilité et complique les analyses. Il existe ainsi un besoin important pour une suite de logiciels performante et flexible permettant l’identification des motifs. Nous proposons ici un ensemble complet d’analyse de données ChIP-seq disponible librement dans R et composé de trois modules PICS, rGADEM et MotIV. A travers l’analyse de quatre jeux de données des facteurs de transcription CTCF, STAT1, FOXA1 et ER nous avons démontré l’efficacité de notre ensemble d’analyse et mis en avant les fonctionnalités novatrices de celui-ci, notamment concernant le traitement des résultats par MotIV conduisant à la découverte de motifs non détectés par les autres algorithmes.<br>ChIP-seq is a technology combining the chromatin immunoprecipitation method with high-throughput sequencing and allowing the analysis of transcription factors in vivo on a genome wide scale. The treatment of such amount of data generated by this method requires strong computer resources and new tools have been recently developed. Though this proliferation of software performing only one step of the analyze leads to compatibility problems and complicates the analysis. Thus, there is a real need for an integrated, powerful and flexible pipeline for motifs identification. Here we proposed a complete pipeline for the analysis of ChIP-seq data freely available in R and composed of three R packages PICS, rGADEM and MotIV. Analyzing four data sets for the human transcription factors CTCF, STAT1, FOXA1 and ER we demonstrated the efficiency of or pipeline and highlighted its new features, especially concerning the processing of the results by MotIV that led to the identification of motif not detected by other methods.
APA, Harvard, Vancouver, ISO, and other styles
34

St-Onge, Karine. "Quantification de la relation séquence-activité de l’ARN par prédiction de structure tridimensionnelle." Thèse, 2011. http://hdl.handle.net/1866/9106.

Full text
Abstract:
Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90. Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte. Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité. Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire. En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation.<br>Initially, we modeled the structure of an RNA family with a graph grammar to identify sequences that correspond to it. Several other modeling approaches have been developed to derive sequences, such as stochastic context-free grammars, covariance models, secondary structures profiles and constraint networks. These modeling methods are based on secondary structure compared to our graph grammars which are based on the nucleotide cyclic motifs. To exemplify our graph grammar model, we used the loop E of the ribosome that contains the Sarcin-Ricin motif that has been widely studied since its discovery by X-ray crystallography in the early 90s. We built a graph grammar for the structure of the Sarcin-Ricin motif and derived the sequences that correspond to it. The biological relevance of these sequences is supported by an alignment of 800 bacterial ribosomal sequences. This comparison raised alternative alignments for some of the sequences that we supported by predictions of secondary and tertiary structures. According to a new tertiary structure, those alternative alignments accommodate the new derived sequences. The nucleotide cyclic motifs used in the grammar were observed by members of our laboratory in RNA tertiary structures that were solved experimentally. We study the sequences and tertiary structures of the nucleotide cyclic motifs of the Sarcin-Ricin motif. This study suggests that the space of sequences depends heavily on interactions between all nucleotides in the nearby three-dimensional space and not only between two adjacent base pairs. We compare the number of sequences generated by the graph grammar with non contextual methods and our graph grammar generates less sequences. This suggests the importance of context for the relationship between sequence and structure, hence the use of a contextual graph grammar is more expressive than context-free grammars. The graph grammars we used include the tertiary structure but neglect the interactions with extra-molecular factors, such as other macromolecules or ligands. In a second stage and to take into account these interactions, we developed a model incorporating the positioning of chemical groups on the surface of the tertiary structures. The assumption being that the chemical groups that are conserved on the surface of the RNA in active sequences are more likely to be involved in interactions with extra-molecular factors. Continuing with the example of the loop E, we searched the groups that could be involved its interactions with elongation factors. Knowledge of the groups involved in the important interactions serves to predict by three-dimensional modeling new sequences that have potentials to realize these interactions and thus the same function. There are few models that have been developed to address this problem: molecular descriptors, nucleotide adjacency matrices and others based on thermodynamics. These models use an oversimplified representation of the RNA structure, which limits their applicability. We applied our model to the tertiary structures of a set of variants of a sequence of one instance of the Sarcin-Ricin motif from a bacterial ribosome. Wool and coworkers at the University of Chicago studied this proceeding experimentally by testing the viability of twelve variants. They identified four viable variants and eight lethal. We used this set of twelve sequences for training our model and we identified a set of essential properties to their biological function. For each variant of the training set we built models of tertiary structures. We then measured the partial charges of exposed atoms on the surface and we encoded this information into vectors. We used principal component analysis to transform the vectors into a set of uncorrelated variables, called principal components. Using the weighted Euclidean distance and a nearest neighbor algorithm, we applied the technique of "Leave-One-Out Cross-Validation" to choose the best parameters to predict the activity of a new sequence to match these principal components. Finally, we validated the predictive model using a new set of eight variants whose viability has been verified experimentally in our laboratory. In conclusion, graph grammars are used to model the relationship between sequence and structure of an RNA structural element, such as the ribosomal loop E containing the Sarcin-Ricin motif. Applications range from the correction of sequence alignment to sequence design with a predetermined structure. We also developed a model to take into account the specific interactions related to a specific biological function. Our model is based on the retention of the exposure of chemical groups that are involved in these interactions. This model has allowed us to predict the biological activity of a set of variants of the loop E that binds to elongation factors.
APA, Harvard, Vancouver, ISO, and other styles
35

Roux, Cedric. "Classification moléculaire des Tumeurs de Wilms par analyse RNA-Seq." Thesis, 2020. http://hdl.handle.net/1866/25174.

Full text
Abstract:
La tumeur de Wilms (TW) est un cancer du rein retrouvé principalement chez les enfants âgés de 2 à 4 ans. Elle représente 90% des cancers pédiatriques du rein. Le taux de survie des TW est supérieur à 90%. Ce dernier est rendu possible grâce à une stratification des patients en fonction du risque de récidive. Les TW sont classées dans différents groupes de risque selon le stade, l’histologie, la taille de la tumeur et la perte d’hétérozygotie aux loci 1p et 16q. Deux régions sont importantes dans la génétique des TW, WT1 et WT2. WT1 est un gène qui code pour un facteur de transcription important dans différentes phases du développement rénal. Des anomalies de WT1 sont retrouvées dans certains syndromes humains tels que WAGR et Denys-Drash qui sont associés à l’émergence de TW. WT2 est un locus présent dans la région chromosomique 11p15 où une perte d'hétérozygotie conduit à une disomie uniparentale. Ceci entraîne un risque accru de TW dû à une surexpression de IGF2 qui est liée à la prolifération d’organes et de membres. Malgré ce portrait génétique, il n’existe pas de sous-groupes moléculaires qui permettent une classification des TW comme on observe chez d’autres cancers de l’enfant, notamment la leucémie. Nous proposons de déterminer une stratification de sous-groupes groupes moléculaire à l’aide d’une signature moléculaire basée sur des profils d’expression qui améliorait la classification des TW dans leurs groupes de risque adéquat. Pour vérifier cette hypothèse, nous avons analysé le transcriptome d’une cohorte de 130 patients atteint d’une TW. Grâce à un regroupement hiérarchique du profil d’expression des échantillons, nous avons identifié deux sous-groupes potentiels de TW. Un de ces sous-groupes est défini par une sous-expression de WT1 et une surexpression de gènes du début du développement musculaire chez les enfants et montrerait un risque plus fort de rechute. Ces résultats montrent que des outils de regroupement basés sur une signature moléculaire permettraient d’identifier des sous-groupes moléculaires chez les TW.<br>Wilms' tumor (TW) is a kidney cancer found mainly in children aged from 2 to 4 years old. It represents 90% of pediatric kidney cancers. The TW survival rate is over 90%. The latter is made possible by stratifying patients according to the risk of relapse. TW are classified into different risk groups according to stage, histology, tumor size and more recently the loss of heterozygosity at loci 1p and 16q. Two regions are important in the genetics of WT, WT1 and WT2. WT1 is a gene that encodes an important transcription factor in different phases of renal development. WT1 abnormalities are found in some human syndromes such as WAGR and Denys-Drash which are associated with the emergence of TW. WT2 is a locus present in the chromosomal region 11p15 where a loss of heterozygosity leads to a uniparental disomy. This leads to an increased risk of WT due to an overexpression of IGF2 which is linked to the proliferation of organs and members. Despite this genetic portrait, there are no molecular subgroups which allow classification of TW as observed in other childhood cancers, including leukemia. We propose to determine a stratification of WT using a molecular signature based on expression profiles in their proper risk group. To test this hypothesis, we analyzed the transcriptome of a cohort of 130 WT patients. The hierarchical clustering of the of the sample’s expressions profiles identified two potential WT subgroups. One of these subgroups can be described by a lower expression of WT1 and overexpression of genes for early muscle development in children and show a higher risk of relapse. These results show that clustering tools based on a molecular signature could allow treatment adjustment (i.e. precision medicine) and thus increase the survival rate.
APA, Harvard, Vancouver, ISO, and other styles
36

Moreira, Sandrine. "Décodage de l'expression de gènes cryptiques." Thèse, 2016. http://hdl.handle.net/1866/18548.

Full text
Abstract:
Pour certaines espèces, les nouvelles technologies de séquençage à haut débit et les pipelines automatiques d'annotation permettent actuellement de passer du tube Eppendorf au fichier genbank en un clic de souris, ou presque. D'autres organismes, en revanche, résistent farouchement au bio-informaticien le plus acharné en leur opposant une complexité génomique confondante. Les diplonémides en font partie. Ma thèse est centrée sur la découverte de nouvelles stratégies d'encryptage de l'information génétique chez ces eucaryotes, et l'identification des processus moléculaires de décodage. Les diplonémides sont des protistes marins qui prospèrent à travers tous les océans de la planète. Ils se distinguent par une diversité d'espèces riche et inattendue. Mais la caractéristique la plus fascinante de ce groupe est leur génome mitochondrial en morceaux dont les gènes sont encryptés. Ils sont décodés au niveau ARN par trois processus: (i) l'épissage en trans, (ii) l'édition par polyuridylation à la jonction des fragments de gènes, et (iii) l'édition par substitution de A-vers-I et C-vers-T; une diversité de processus posttranscriptionnels exceptionnelle dans les mitochondries. Par des méthodes bio-informatiques, j'ai reconstitué complètement le transcriptome mitochondrial à partir de données de séquences ARN à haut débit. Nous avons ainsi découvert six nouveaux gènes dont l'un présente des isoformes par épissage alternatif en trans, 216 positions éditées par polyuridylation sur 14 gènes (jusqu'à 29 uridines par position) et 114 positions éditées par déamination de A-vers-I et C-vers-T sur sept gènes (nad4, nad7, rns, y1, y2, y3, y5). Afin d'identifier les composants de la machinerie réalisant la maturation des ARNs mitochondriaux, le génome nucléaire a été séquencé, puis je l'ai assemblé et annoté. Cette machinerie est probablement singulière et complexe car aucun signal en cis ni acteur en trans caractéristiques des machineries d'épissage connues n'a été trouvé. J'ai identifié plusieurs candidats prometteurs qui devront être validés expérimentalement: des ARN ligases, un nombre important de protéines de la famille des PPR impliquées dans l'édition des ARNs dans les organites de plantes, ainsi que plusieurs déaminases. Durant ma thèse, nous avons mis en évidence de nouveaux types de maturation posttranscriptionnelle des ARNs dans la mitochondrie des diplonémides et identifié des candidats prometteurs de la machinerie. Ces composants, capables de lier précisément des fragments d'ARN et de les éditer pourraient trouver des applications biotechnologique. Au niveau évolutif, la caractérisation de nouvelles excentricités moléculaires de ce type nous donne une idée des processus de recrutement de gènes, de leur adaptation à de nouvelles fonctions, et de la mise en place de machineries moléculaires complexes.<br>Thanks to new high throughput sequencing technologies and automatic annotation pipelines, proceeding from an eppendorf tube to a genbank file can be achieved in a single mouse click or so, for some species. Others, however, fiercely resist bioinformaticians with their confounding genomic complexity. Diplonemids are one of them. My thesis is centered on the discovery of new strategies for encrypting genetic information in eukaryotes, and the identification of molecular decoding processes. Diplonemids are a group of poorly studied marine protists. Unexpectedly, metagenomic studies have recently ranked this group as one of the most diverse in the oceans. Yet, their most distinctive feature is their multipartite mitochondrial genome with genes in pieces, and encryption by nucleotide deletions and substitutions. Genes are decrypted at the RNA level through three processes: (i) trans-splicing, (ii) polyuridylation at the junction of gene pieces and (iii) substitutions of A-to-I and C-to-T. Such a diverse arsenal of mitochondrial post-transcriptional processes is highly exceptional. Using a bioinformatics approach, I have reconstructed the mitochondrial transcriptome from RNA-seq libraries. We have identified six new genes including one that presents alternative trans-splicing isoforms. In total, there are 216 uridines added in 14 genes with up to 29 U insertions, and 114 positions edited by deamination (A-to-I or C-to-T) among seven genes (nad4, nad7, rns, y1, y2, y3, y5). In order to identify the machinery that processes mitochondrial RNAs, the nuclear genome has been sequenced. I have then assembled and annotated the genome. This machinery is probably unique and complex because no cis signal or trans actor typical for known splicing machineries have been found. I have identified promising protein candidates that are worth to be tested experimentally, notably RNA ligases, numerous members of the PPR family involved in plants RNA editing and deaminases. During my thesis, we have identified new types of post-transcriptional RNA processing in diplonemid mitochondria and identified new promising candidates for the machinery. A system capable of joining precisely or editing RNAs could find biotechnological applications. From an evolutionary perspective, the discovery of new molecular systems gives insight into the process of gene recruitment, adaptation to new functions and establishment of complex molecular machineries.
APA, Harvard, Vancouver, ISO, and other styles
37

Austin, Ryan. "The de novo Prediction of Functionally Significant Sequence Motifs in Arabidopsis thaliana." Thesis, 2009. http://hdl.handle.net/1807/19021.

Full text
Abstract:
This thesis performs de novo predictions for functionally significant sequence motifs in the Arabidopsis genome under two separate contexts. Each study applies the use of genomic positional information, statistical over-representation and several biologically contextual filters to maximize the visibility of biological signal in prediction results. Numerous literature supported motifs are prevalent in the results of both studies and a number of novel motif patterns possess a strong potential for in planta significance. The first study examines the statistical over-representation of C-terminal tripeptides as a means for identifying eukaryotic conserved protein targetting signatures. Comparative genomics is applied to the analysis of tripeptide frequencies in the C-terminus of 7 eukaryotic proteomes. While biological signal is maximized through the filtering of both simple sequences and homologous sequences present across protein families. The second study introduces a methodology for the effective prediction of transcription factor binding sites in Arabidopsis. A collection of motif prediction algorithms and a novel enumerative strategy are applied to the prediction of cis-acting regulatory elements within the promoters of genes found coexpressed within distinct tissues and under specific abiotic stress treatments. Overall, the analysis identifies 4 known motifs in expected contexts, 5 known motifs in novel contexts and 7 novel motifs with a high potential for biological function.
APA, Harvard, Vancouver, ISO, and other styles
38

El, Alaoui Wafae. "Estimation des longueurs de branche et artefact sur la datation moléculaire." Thèse, 2008. http://hdl.handle.net/1866/2660.

Full text
Abstract:
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence. Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes. Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques. Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation.<br>Molecular phylogeny provides an additional tool complementary to paleontological and geological studies, allowing the reconstruction of phylogenetic relationships between species and the estimate of their divergence time. Researchers are mainly focusing on the topology of a phylogenetic tree; i.e. the relative connection between different nodes. Whereas, the branch lengths of this phylogeny are often considered as secondary, i.e. as additional parameters containing little information. However, the branch lengths are the primary information for molecular dating. Importantly, saturation, the presence of multiple substitutions at the same position, is an artifact that leads to an underestimation of the branch length. We are therefore interested in estimating the magnitude of this phenomenon and its impact on divergence time. We chose to study the mammalian mitochondrial genome, which is available for many species and displays a high level of saturation. Furthermore, the phylogenetic relationships of mammalians are known, thus allowing us to fix the topology, thus eliminating one of the parameters influencing the branch lengths. We used two main approaches to improve the detection of multiple substitutions: (i) an increase in the number of species breaks the longest branches of the tree, (ii) more realistic models of sequence evolution. The results demonstrate that there is a very pronounced underestimation of branch lengths (up to a factor of 3). Furthermore, the use of a large number of species is the factor that influences most the detection of multiple substitutions, not the improvement of the model of sequence evolution. This suggests that even the most complex evolutionary models currently available, like the CAT+ Covarion model, which takes into account the heterogeneity of the substitution process between sites and the rates of evolution over time, are still far from taking the entire complexity of biological processes into account. Despite the important underestimation of branch lengths, the impact on dating appeared to be relatively limited, because the underestimation is more or less homothetic. This is obviously true for the complex evolutionary models. Since multiple substitutions are most effectively detected when breaking the long internal branches via the addition of species. This raises the problem of bias in the taxonomic sampling, due to the impact of extinction on the history of life on earth. Because this kind of bias leads to a non-homothetic underestimation, we consider it essential to improve models of sequence evolution and suggest that the protocol developed in this work will allow to evaluate their effectiveness towards saturation.
APA, Harvard, Vancouver, ISO, and other styles
39

Trofimov, Assya. "Étude des signatures géniques dans un contexte d’expériences de RNA- Seq." Thèse, 2017. http://hdl.handle.net/1866/20417.

Full text
APA, Harvard, Vancouver, ISO, and other styles
40

Benoit, Bouvrette Louis Philip. "Analyse de la corrélation conditionnelle dérivée de la coévolution d’un système de trois gènes par un modèle du maximum de vraisemblance." Thèse, 2010. http://hdl.handle.net/1866/5000.

Full text
Abstract:
Les gènes codant pour des protéines peuvent souvent être regroupés et intégrés en modules fonctionnels par rapport à un organelle. Ces modules peuvent avoir des composantes qui suivent une évolution corrélée pouvant être conditionnelle à un phénotype donné. Les gènes liés à la motilité possèdent cette caractéristique, car ils se suivent en cascade en réponse à des stimuli extérieurs. L’hyperthermophilie, d’autre part, est interreliée à la reverse gyrase, cependant aucun autre élément qui pourrait y être associé avec certitude n’est connu. Ceci peut être dû à un déplacement de gènes non orthologues encore non résolu. En utilisant une approche bio-informatique, une modélisation mathématique d’évolution conditionnelle corrélée pour trois gènes a été développée et appliquée sur des profils phylétiques d’archaea. Ceci a permis d’établir des théories quant à la fonction potentielle du gène du flagelle FlaD/E ainsi que l’histoire évolutive des gènes lui étant liés et ayant contribué à sa formation. De plus, une histoire évolutive théorique a été établie pour une ligase liée à l’hyperthermophilie.<br>Protein coding gene may often be grouped and integrated in functional modules with respect to an organelle. These modules may have constituents that follow a conditional correlated evolution to a given phenotype. Genes linked to motility posses this characteristic as they follow a cascade in response to external stimuli. Similarly, hyperthermophily is related to reverse gyrase, however no other element that could be associated with certainty is known. This may be caused by an unresolved case of non-orthologous gene displacement. Using a bioinformatic approach, a mathematical model for conditional correlated evolution for three genes has been developed and applied to the phyletic profiles of archaea. This has helped to develop theories about the potential functions of the flagellar gene FlaD/E and the evolutionary history of the genes that are linked to it and that may have contributed to its formation. In addition, a theoretical evolutionary history has been established for a ligase associated with hyperthermophily.
APA, Harvard, Vancouver, ISO, and other styles
41

Vello, Emilio D. "La cartographie des sites de régulation génétique à partir de données de débalancement allélique." Thèse, 2011. http://hdl.handle.net/1866/6179.

Full text
Abstract:
En 1975, Wilson et King ont proposé que l'évolution opère non seulement via des changements affectant la structure des protéines, mais aussi via des mutations qui modifient la régulation génétique. L'étude des éléments régulateurs de l'expression génétique a un rôle important dans la compréhension de l'expression de différentes maladies et de la réponse thérapeutique. Nous avons développé un algorithme bio- informatique qui nous permet rapidement de trouver des sites de régulation génétique à travers tout le génome et pour une grande quantité de gènes. Notre approche consiste à trouver des sites polymorphes (SNPs) qui sont en déséquilibre de liaison avec le débalancement allélique (AI) afin de cartographier la région régulatrice et le site responsable. Notre méthode est avantageuse par rapport à d'autres méthodes, car elle n'a pas besoin des données « phasées». De plus, les données de débalancement allélique ne sont pas affectées par des facteurs externes étant donné qu'ils sont mesurés dans la même cellule. Nous avons démontré que notre approche est fiable et qu'elle peut détecter des sites loin du gène. De plus, il peut être appliqué à des données de génotypage sans avoir besoin de les « phaser » .<br>Wilson and King (1975) proposed that evolution frequently operates through mutations affecting genetic regulation. Likewise, it is expected that genetic variation responsible for inter-individual differences will be due to variation in regulatory sites. Identifying such sites is thus important in the genetic and medical research. We have developed a new bioinformatics algorithm to find genome-wide regulatory sites for a big number of genes. Individuals carrying different alleles at a regulatory site will exhibit allelic imbalance(AI) due to differential expression of the two copies the same locus. Our approach consists of searching polymorphic sites (SNPs) in linkage disequilibrium with AI in order to map regulatory regions. We have detected many SNPs associated to the regulation of different genes pointed in previous studies. We have also found regulatory regions far from the transcription start site (TSS). The major advantage of this method is that phased data is not needed. In addition, AI data has the benefit of not being affected by external factors since it is measured in the same cell. The results show that our approach is reliable and it can detect sites far from the gene.
APA, Harvard, Vancouver, ISO, and other styles
42

Mehanna, Pamela. "Caractérisation du microDNome et sa modulation par le traitement anti-cancer." Thèse, 2016. http://hdl.handle.net/1866/18666.

Full text
Abstract:
Récemment, une nouvelle classe d'ADN circulaire extrachromosomique (eccDNA) appelée microADN a été identifiée dans des tissus humains et murins. Ces microADNs ont une longueur de 100 à 400 pb, sont dérivés de régions génomiques non répétitives uniques et présentent un enrichissement au niveau des régions géniques et riches en GC. Bien qu'il ait été proposé qu'ils puissent provenir du métabolisme de l'ARN ou des défauts de réplication, leurs mécanismes de production et leur éventuelle fonctionnalité restent à déterminer. Grâce à l'analyse des microADNs extraits d'une série de 10 lignées cellulaires lymphoblastoïdes humaines (LCL), nous avons confirmé la distribution nonaléatoire des microADNs vers les régions actives du génome. Les microADNs identifiés présentaient des loci d'origine redondants et une périodicité de taille de 190 pb pouvant correspondre à la fragmentation de l'ADN lors de l'apoptose caspase-dépendante. L'apoptose induite de ces LCLs par des drogues chimiothérapeutiques (méthotrexate ou L-asparaginase) a entrainé la modulation de la diversité et de la taille des microADNs, suggérant qu'une partie de ces entités pourrait être des produits résiduels de la mort cellulaire apoptotique. Ainsi, bien que compatible avec l'observation initiale suggérant que les microADNs proviennent d'un processus physiologique normal, ces résultats impliquent une source de production alternative ou complémentaire.<br>Recently, a new class of extrachromosomal circular DNA (eccDNA) called microDNA was identified in mouse and human tissues. These microDNAs are 100 to 400 bp long, derive from unique nonrepetitive genomic regions and show an enrichment in GC rich and genic sequences. While it has been proposed that they could arise from RNA metabolism or replication defects, their production mechanisms and eventual functionality remain unclear. Through the analysis of microDNAs extracted from a series of 10 human lymphoblastoid cell lines (LCLs), we confirmed the non-random distribution of microDNA towards active regions of the genome. Identified microDNAs showed redundant loci of origin and a size periodicity of 190 bp that matched caspase-dependant DNA fragmentation of apoptotic cells. Strikingly, the chemotherapeutic drug-induced apoptosis (using methotrexate or Lasparaginase) of these LCLs modulated both diversity and size of microDNAs further suggesting that a part of microDNAs could represent circularized by-products of the programmed cell death. Thus, while compatible with the original observation that microDNAs originated from a normal physiological process, these results imply an alternative or complementary source of production.
APA, Harvard, Vancouver, ISO, and other styles
43

Courcelles, Mathieu. "Identification de nouveaux substrats des kinases Erk1/2 par une approche bio-informatique, pharmacologique et phosphoprotéomique." Thèse, 2011. http://hdl.handle.net/1866/7070.

Full text
Abstract:
La phosphorylation est une modification post-traductionnelle omniprésente des protéines Cette modification est ajoutée et enlevée par l’activité enzymatique respective des protéines kinases et phosphatases. Les kinases Erk1/2 sont au cœur d’une voie de signalisation importante qui régule l’activité de protéines impliquées dans la traduction, le cycle cellulaire, le réarrangement du cytosquelette et la transcription. Ces kinases sont aussi impliquées dans le développement de l’organisme, le métabolisme du glucose, la réponse immunitaire et la mémoire. Différentes pathologies humaines comme le diabète, les maladies cardiovasculaires et principalement le cancer, sont associées à une perturbation de la phosphorylation sur les différents acteurs de cette voie. Considérant l’importance biologique et clinique de ces deux kinases, connaître l’étendue de leur activité enzymatique pourrait mener au développement de nouvelles thérapies pharmacologiques. Dans ce contexte, l’objectif principal de cette thèse était de mesurer l’influence de cette voie sur le phosphoprotéome et de découvrir de nouveaux substrats des kinases Erk1/2. Une étude phosphoprotéomique de cinétique d’inhibition pharmacologique de la voie de signalisation Erk1/2 a alors été entreprise. Le succès de cette étude était basé sur trois technologies clés, soit l’enrichissement des phosphopeptides avec le dioxyde de titane, la spectrométrie de masse haut débit et haute résolution, et le développement d’une plateforme bio-informatique nommée ProteoConnections. Cette plateforme permet d’organiser les données de protéomique, évaluer leur qualité, indiquer les changements d’abondance et accélérer l’interprétation des données. Une fonctionnalité distinctive de ProteoConnections est l’annotation des sites phosphorylés identifiés (kinases, domaines, structures, conservation, interactions protéiques phospho-dépendantes). Ces informations ont été essentielles à l’analyse des 9615 sites phosphorylés sur les 2108 protéines identifiées dans cette étude, soit le plus large ensemble rapporté chez le rat jusqu’à ce jour. L’analyse des domaines protéiques a révélé que les domaines impliqués dans les interactions avec les protéines, les acides nucléiques et les autres molécules sont les plus fréquemment phosphorylés et que les sites sont stratégiquement localisés pour affecter les interactions. Un algorithme a été implémenté pour trouver les substrats potentiels des kinases Erk1/2 à partir des sites identifiés selon leur motif de phosphorylation, leur cinétique de stimulation au sérum et l’inhibition pharmacologique de Mek1/2. Une liste de 157 substrats potentiels des kinases Erk1/2 a ainsi été obtenue. Parmi les substrats identifiés, douze ont déjà été rapportés et plusieurs autres ont des fonctions associées aux substrats déjà connus. Six substrats (Ddx47, Hmg20a, Junb, Map2k2, Numa1, Rras2) ont été confirmés par un essai kinase in vitro avec Erk1. Nos expériences d’immunofluorescence ont démontré que la phosphorylation de Hmg20a sur la sérine 105 par Erk1/2 affecte la localisation nucléocytoplasmique de cette protéine. Finalement, les phosphopeptides isomériques positionnels, soit des peptides avec la même séquence d’acides aminés mais phosphorylés à différentes positions, ont été étudiés avec deux nouveaux algorithmes. Cette étude a permis de déterminer leur fréquence dans un extrait enrichi en phosphopeptides et d’évaluer leur séparation par chromatographie liquide en phase inverse. Une stratégie analytique employant un des algorithmes a été développée pour réaliser une analyse de spectrométrie de masse ciblée afin de découvrir les isomères ayant été manqués par la méthode d’analyse conventionnelle.<br>Phosphorylation is an omnipresent post-translational modification of proteins that regulates numerous cellular processes. This modification is controlled by the enzymatic activity of protein kinases and phosphatases. Erk1/2 kinases are central to an important signaling pathway that modulates translation, cell cycle, cytoskeleton rearrangement and transcription. They are also implicated in organism development, glucose metabolism, immune response and memory. Different human pathologies such as diabetes, cardiovascular diseases, and most importantly cancer, are associated with misregulation or mutations in members of this pathway. Considering the biological and clinical importance of those two kinases, discovering the extent of their enzymatic activity could favor the development of new pharmacological therapies. In this context, the principal objective of this thesis was to measure the influence of this pathway on the phosphoproteome and to discover new substrates of the Erk1/2 kinases. A phosphoproteomics study on the pharmacological inhibition kinetics of the Erk1/2 signaling pathway was initiated. The success of this study was based on three key technologies such as phosphopeptides enrichment with titanium dioxide, high-throughput and high-resolution mass spectrometry, and the development of ProteoConnections, a bioinformatics analysis platform. This platform is dedicated to organize proteomics data, evaluate data quality, report changes of abundance and accelerate data interpretation. A distinctive functionality of ProteoConnections is the annotation of phosphorylated sites (kinases, domains, structures, conservation, phospho-dependant protein interactions, etc.). This information was essential for the dataset analysis of 9615 phosphorylated sites identified on 2108 proteins during the study, which is, until now, the largest one reported for rat. Protein domain analysis revealed that domains implicated in proteins, nucleic acids and other molecules binding were the most frequently phosphorylated and that these sites are strategically located to affect the interactions. An algorithm was implemented to find Erk1/2 kinases potential substrates of identified sites using their phosphorylation motif, serum stimulation and Mek1/2 inhibition kinetic profile. A list of 157 potential Erk1/2 substrates was obtained. Twelve of them were previously reported and many more have functions associated to known substrates. Six substrates (Ddx47, Hmg20a, Junb, Map2k2, Numa1, and Rras2) were confirmed by in vitro kinase assays with Erk1. Our immunofluorescence experiments demonstrated that the phosphorylation of Hmg20a on serine 105 by Erk1/2 affects the nucleocytoplasmic localization of this protein. Finally, phosphopeptides positional isomers, peptides with the same amino acids sequence but phosphorylated at different positions, were studied with two new algorithms. This study allowed us to determine their frequency in an enriched phosphopeptide extract and to evaluate their separation by reverse-phase liquid chromatography. An analytical strategy that uses one of the algorithms was developed to do a targeted mass spectrometry analysis to discover the isomers that had been missed by the conventional method.
APA, Harvard, Vancouver, ISO, and other styles
44

Kang, Jee Eun. "Novel bioinformatics programs for taxonomical classification and functional analysis of the whole genome sequencing data of arbuscular mycorrhizal fungi." Thèse, 2018. http://hdl.handle.net/1866/21799.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Scott-Boyer, Marie Pier. "Annotation des ARN non codants du génome de Candida albicans par méthode bioinformatique." Thèse, 2009. http://hdl.handle.net/1866/2978.

Full text
Abstract:
La bio-informatique est un champ pluridisciplinaire qui utilise la biologie, l’informatique, la physique et les mathématiques pour résoudre des problèmes posés par la biologie. L’une des thématiques de la bio-informatique est l’analyse des séquences génomiques et la prédiction de gènes d’ARN non codants. Les ARN non codants sont des molécules d’ARN qui sont transcrites mais pas traduites en protéine et qui ont une fonction dans la cellule. Trouver des gènes d’ARN non codants par des techniques de biochimie et de biologie moléculaire est assez difficile et relativement coûteux. Ainsi, la prédiction des gènes d’ARNnc par des méthodes bio-informatiques est un enjeu important. Cette recherche décrit un travail d’analyse informatique pour chercher des nouveaux ARNnc chez le pathogène Candida albicans et d’une validation expérimentale. Nous avons utilisé comme stratégie une analyse informatique combinant plusieurs logiciels d’identification d’ARNnc. Nous avons validé un sous-ensemble des prédictions informatiques avec une expérience de puces à ADN couvrant 1979 régions du génome. Grace à cette expérience nous avons identifié 62 nouveaux transcrits chez Candida albicans. Ce travail aussi permit le développement d’une méthode d’analyse pour des puces à ADN de type tiling array. Ce travail présente également une tentation d’améliorer de la prédiction d’ARNnc avec une méthode se basant sur la recherche de motifs d’ARN dans les séquences.<br>Bioinformatics is a multidisciplinary field that uses biology, computer science, physics and mathematics to solve problems in biology. One of the topics of bioinformatics is the analysis of genomic sequences and prediction of genes from non-coding RNA (ncRNA). The non-coding RNAs are RNA molecules that are transcribed but not translated into protein and have a function in the cell. The use of biochemistry and molecular biology techniques in order to find non-coding RNA genes is rather difficult and relatively expensive. Thus, the prediction of genes by bioinformatics methods is an important issue. This research describes a computer analysis to search for new ncRNA in the pathogen Candida albicans and an experimental validation. The strategy used was to combine several algorithms and to validate a subset of computer predictions with a microarray experience covering 1979 regions of the genome. We have identified 62 new transcripts in Candida albicans. We have also developed an analytical method for tiling array and attempted to improve the prediction of ncRNAs this with a method based on the search of RNA motifs in the sequences.
APA, Harvard, Vancouver, ISO, and other styles
46

Butorin, Yury. "RNA recurrent motifs : identification and characterization." Thèse, 2010. http://hdl.handle.net/1866/5026.

Full text
Abstract:
La détermination de la structure tertiaire du ribosome fut une étape importante dans la compréhension du mécanisme de la synthèse des protéines. Par contre, l’élucidation de la structure du ribosome comme tel ne permet pas une compréhension de sa fonction. Pour mieux comprendre la nature des relations entre la structure et la fonction du ribosome, sa structure doit être étudiée de manière systématique. Au cours des dernières années, nous avons entrepris une démarche systématique afin d’identifier et de caractériser de nouveaux motifs structuraux qui existent dans la structure du ribosome et d’autres molécules contenant de l’ARN. L’analyse de plusieurs exemples d’empaquetage de deux hélices d’ARN dans la structure du ribosome nous a permis d’identifier un nouveau motif structural, nommé « G-ribo ». Dans ce motif, l’interaction d’une guanosine dans une hélice avec le ribose d’un nucléotide d’une autre hélice donne naissance à un réseau d’interactions complexes entre les nucléotides voisins. Le motif G-ribo est retrouvé à 8 endroits dans la structure du ribosome. La structure du G-ribo possède certaines particularités qui lui permettent de favoriser la formation d’un certain type de pseudo-nœuds dans le ribosome. L’analyse systématique de la structure du ribosome et de la ARNase P a permis d’identifier un autre motif structural, nommé « DTJ » ou « Double-Twist Joint motif ». Ce motif est formé de trois courtes hélices qui s’empilent l’une sur l’autre. Dans la zone de contact entre chaque paire d’hélices, deux paires de bases consécutives sont surenroulées par rapport à deux paires de bases consécutives retrouvées dans l’ARN de forme A. Un nucléotide d’une paire de bases est toujours connecté directement à un nucléotide de la paire de bases surenroulée, tandis que les nucléotides opposés sont connectés par un ou plusieurs nucléotides non appariés. L’introduction d’un surenroulement entre deux paires de bases consécutives brise l’empilement entre les nucléotides et déstabilise l’hélice d’ARN. Dans le motif DTJ, les nucléotides non appariés qui lient les deux paires de bases surenroulées interagissent avec une des trois hélices qui forment le motif, offrant ainsi une stratégie élégante de stabilisation de l’arrangement. Pour déterminer les contraintes de séquences imposées sur la structure tertiaire d’un motif récurrent dans le ribosome, nous avons développé une nouvelle approche expérimentale. Nous avons introduit des librairies combinatoires de certains nucléotides retrouvés dans des motifs particuliers du ribosome. Suite à l’analyse des séquences alternatives sélectionnées in vivo pour différents représentants d’un motif, nous avons été en mesure d’identifier les contraintes responsables de l’intégrité d’un motif et celles responsables d’interactions avec les éléments qui forment le contexte structural du motif. Les résultats présentés dans cette thèse élargissent considérablement notre compréhension des principes de formation de la structure d’ARN et apportent une nouvelle façon d’identifier et de caractériser de nouveaux motifs structuraux d’ARN.<br>Although determination of the ribosome tertiary structure has been an outstanding step towards elucidation of the mechanism of protein synthesis, the complexity of this structure does not provide an easy answer of how this large molecular complex works. In order to understand the nature of structure-function relationships in the ribosome, the ribosome structure itself should be subjected to thorough analysis. In the last years, we undertook systematic efforts toward identification and characterization of all recurrent structural motifs existing in the ribosomal RNA and in other RNA-containing molecules. The analysis of many instances of helix-helix packing in the ribosome structure allowed us to identify a new structural motif which we called “G-ribo”. In this motif, an interaction of the sugar edge of a guanosine in one helix with the ribose of a nucleotide from another helix was found to be at the origin of a complex network of concomitant inter-nucleotide interactions. In total, the G-ribo motif was found at eight locations within the ribosomal RNA. A surprising feature of this motif consists in its ability to favor the formation of pseudoknots of a particular type. In the ribosome structure, there are four pseudoknots whose formation is mediated by the G-ribo motif. Systematic analysis of the ribosome as well as the RNAseP crystal structures allowed for the identification of a new RNA motif, which we called “DTJ”, or Double-Twist Joint motif. This motif is made of three short RNA double helices, which stack one on top of another. In the contact zone of each pair of helices two consecutive base pairs are over-twisted compared to the regular helical twist of 32° of A-RNA. One nucleotide of the base pair is always directly connected to the one nucleotide of the over-twisted base pair, while the opposite nucleotides of these base pairs are connected with one or several unpaired nucleotides. Introduction of the helical over-twist between two consecutive base pairs breaks the inter-nucleotide stacking and destabilizes the RNA double helix. In the DTJ, the unpaired nucleotides that connect the two over-twisted base pairs interact with one of the three motif-forming helices, providing an elegant strategy for the stabilization of the whole arrangement. To determine the nucleotide sequence constraints imposed on the structure of recurrent RNA motifs in the functional ribosome we developed a new approach consisting in the selection of functional ribosomes from a combinatorial gene library in which certain nucleotides of the rRNA gene corresponding to a particular motif were randomized. Comparison of the constraints determined for different examples of the same motif allowed us to distinguish between constraints responsible for the integrity of the motif and for its interaction with surrounding elements, including ribosomal proteins. The work significantly improves our understanding of the principles of RNA structure formation and opens a new way to identify and characterize RNA motifs.
APA, Harvard, Vancouver, ISO, and other styles
47

Gagnon, Yves. "Algorithmes pour la reconstruction de génomes ancestraux." Thèse, 2012. http://hdl.handle.net/1866/8634.

Full text
Abstract:
L’inférence de génomes ancestraux est une étape essentielle pour l’étude de l’évolution des génomes. Connaissant les génomes d’espèces éteintes, on peut proposer des mécanismes biologiques expliquant les divergences entre les génomes des espèces modernes. Diverses méthodes visant à résoudre ce problème existent, se classant parmis deux grandes catégories : les méthodes de distance et les méthodes de synténie. L’état de l’art des distances génomiques ne permettant qu’un certain répertoire de réarrangements pour le moment, les méthodes de synténie sont donc plus appropriées en pratique. Nous proposons une méthode de synténie pour la reconstruction de génomes ancestraux basée sur une définition relaxée d’adjacences de gènes, permettant un contenu en gène inégal dans les génomes modernes causé par des pertes de gènes de même que des duplications de génomes entiers (DGE). Des simulations sont effectuées, démontrant une capacité de former une solution assemblée en un nombre réduit de régions ancestrales contigües par rapport à d’autres méthodes tout en gardant une bonne fiabilité. Des applications sur des données de levures et de plantes céréalières montrent des résultats en accord avec d’autres publications, notamment la présence de fusion imbriquée de chromosomes pendant l’évolution des céréales.<br>Ancestral genome inference is a decisive step for studying genome evolution. Knowing genomes from extinct species, one can propose biological mecanisms explaining divergences between extant species genomes. Various methods classified in two categories have been developped : distance based methods and synteny based methods. The state of the art of distance based methods only permit a certain repertoire of genomic rearrangements, thus synteny based methods are more appropriate in practice for the time being. We propose a synteny method for ancestral genome reconstruction based on a relaxed defenition of gene adjacencies, permitting unequal gene content in extant genomes caused by gene losses and whole genome duplications (WGD). Simulations results demonstrate our method’s ability to form a more assembled solution rather than a collection of contiguous ancestral regions (CAR) with respect to other methods, while maintaining a good reliability. Applications on data sets from yeasts and cereal species show results agreeing with other publications, notably the existence of nested chromosome fusion during the evolution of cereals.
APA, Harvard, Vancouver, ISO, and other styles
48

Bemmo, Amandine. "Performances de la puce exon et son application dans l’analyse de l’épissage alternatif associé à la métastase du cancer de sein." Thèse, 2009. http://hdl.handle.net/1866/3628.

Full text
Abstract:
Nous montrons l’utilisation de la puce exon d’Affymetrix pour l’analyse simultanée de l’expression des gènes et de la variation d’isoformes. Nous avons utilisé les échantillons d’ARN du cerveau et des tissus de référence qui ont été antérieurement utilisés dans l’étude du consortium MicroArray Quality Control (MAQC). Nous démontrons une forte concordance de la quantification de l’expression des gènes entre trois plateformes d’expression populaires à savoir la puce exon d’Affymetrix, la puce Illumina et la puce U133A d’Affymetrix. Plus intéressant nous montrons que la majorité des discordances entre les trois plateformes résulterait des positions différentes des sondes à travers les plateformes et que les variations d’isoforme exactes ne peuvent être identifiées que par la puce exon. Nous avons détecté avec succès, entre les tissus de référence et ceux du cerveau, une centaine de cas d’évènements d’épissage alternatif. La puce exon est requise dans l’analyse de l’épissage alternatif associé aux pathologies telles que les cancers et les troubles neurologiques. Comme application de cette technologie, nous avons analysé les variations d’épissage dans la métastase du cancer de sein développé dans le model de la souris. Nous avons utilisé une gamme bien définie de trois lignées de tumeur mammaire ayant différents potentiels métastatiques. Par des analyses statistiques, nous avons répertorié 2623 transcripts présentant des variations d’expression et d’isoformes entre les types de tumeur. Une analyse du réseau de gènes montre qu’environ la moitié d’entre eux est impliquée dans plusieurs activités cellulaires, ainsi que dans nombreux cancers et désordres génétiques.<br>We demonstrate how the Affymetrix Exon Array, can be used to simultaneously profile gene expression level, and detect variations at the isoform level. We use a well studied set of brain and reference RNA samples previously used by the MicroArray Quality Control (MAQC) consortium study. We demonstrate a high concordance of gene expression measurements among three popular expression platforms – Affymetrix Exon Array, Illumina, and Affymetrix 3’ targeted array (U133A). More interestingly, we show that in many cases of discordant results, the effect can be explained by differential probe placements across platforms, and that the exact isoform change can only be captured by the Exon Array. Finally, we are able to detect hundreds of cases of splicing, transcript initiation, and termination differences between the brain and reference tissue samples. We propose that the Exon Array is a highly effective tool for transcript isoform profiling, and that it should be used in a variety of systems where such changes are known to be associated with diseases, such as neurological disorders and cancer. As application, we used the Affymetrix Exon Array to identify metastatis-specific alternative splicing in mouse model of breast cancer at the whole genome level. We utilize a well characterized series of three mouse mammary tumor lines exhibiting varying levels of metastatic potential. We catalogued 2623 transcripts which exhibit splicing aberrations during the progression of cancer. A genetic pathway analysis shows the half of them implicated in several cell activities, cancers and genetic disorders.
APA, Harvard, Vancouver, ISO, and other styles
49

Tastet, Olivier. "Contrôle génétique de l’épissage alternatif dans le contexte de la réponse immunitaire innée." Thèse, 2018. http://hdl.handle.net/1866/22276.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

El-Hachem, Nehme. "Analyse transcriptomique et applications en développement préclinique des médicaments." Thèse, 2016. http://hdl.handle.net/1866/18556.

Full text
Abstract:
L’émergence des Mégadonnées (« Big Data ») en biologie moléculaire, surtout à travers la transcriptomique, a révolutionné la façon dont nous étudions diverses disciplines telles que le processus de développement du médicament ou la recherche sur le cancer. Ceci fut associé à un nouveau concept, la médecine de précision, dont le principal but est de comprendre les mécanismes moléculaires entraînant une meilleure réponse thérapeutique chez le patient. Cette thèse est à mi-chemin entre les études pharmaco — et toxicogénomiques expérimentales, et les études cliniques et translationnelles. Le but de cette thèse est surtout de montrer le potentiel et les limites de ces jeux de données et leur pertinence pour la découverte de biomarqueurs de réponse ainsi que la compréhension des mécanismes d’action/toxicité de médicaments, en vue d’utiliser ces informations à des fins thérapeutiques. L’originalité de cette thèse réside dans son approche globale pour analyser les plus larges jeux de données pharmaco/toxicogénomiques publiés à ce jour et ceci pour : 1) Aborder la notion de biomarqueurs de réponse aux médicaments en pharmacogénomique du cancer, en étudiant les facteurs discordants entre deux grandes études publiées en 2012; 2) Comprendre le mécanisme d’action des médicaments et construire une taxonomie performante en utilisant une approche intégrative; et 3) Créer un répertoire toxicogénomique à partir des hépatocytes humains, exposés à différentes classes de médicaments et composés chimiques. Mes contributions principales sont les suivantes : • J’ai développé une approche bioinformatique pour étudier les facteurs discordants entre deux grandes études pharmacogénomiques et suggérées que les différences observées émergeaient plutôt de l’absence de standardisation des mesures pharmacologiques qui pourrait limiter la validation de biomarqueurs de réponse aux médicaments. • J’ai implémenté une approche bioinformatique qui montre la supériorité de l’intégration tenant en compte des différents paramètres pour les médicaments (structure, cytotoxicité, perturbation du transcriptome) afin d’élucider leur mécanisme d’action (MoA). • J’ai développé un pipeline bioinformatique pour étudier le niveau de conservation des mécanismes moléculaires entre les études toxicogénomiques in vivo et in vitro démontrant que les hépatocytes humains sont un modèle fiable pour détecter les produits toxiques hépatocarcinogènes. Au total, nos études ont permis de fournir un cadre de travail original pour l’exploitation de différents types de données transcriptomiques pour comprendre l’impact des produits chimiques sur la biologie cellulaire.<br>The emergence of Big Data in molecular biology, especially through the study of transcriptomics, has revolutionized the way we look at various disciplines, such as drug development and cancer research. Big data analysis is an important part of the concept of precision medicine, which primary purpose is to understand the molecular mechanisms leading to better therapeutic response in patients. This thesis is halfway between pharmaco-toxicogenomics experimental studies, and clinical and translational studies. The aim of this thesis is mainly to show the potential and limitations of these studies and their relevance, especially for the discovery of drug response biomarkers and understanding the drug mechanisms (targets, toxicities). This thesis is an original work since it proposes a global approach to analyzing the largest pharmaco-toxicogenomic datasets available to date. The key aims were: 1) Addressing the challenge of reproducibility for biomarker discovery in cancer pharmacogenomics, by comparing two large pharmacogenomics studies published in 2012; 2) Understanding drugs mechanism of action using an integrative approach to generate a superior drug-taxonomy; and 3) Evaluating the conservation of toxicogenomic responses in primary hepatocytes vs. in vivo liver samples in order to check the feasability of cell models in toxicology studies. My main contributions can be summarized as follow: - I developed a bioinformatics pipeline to study the factors that trigger (in)consistency between two major pharmacogenomic studies. I suggested that the observed differences emerged from the non-standardization of pharmacological measurements, which could limit the validation of drug response biomarker. - I implemented a bioinformatics pipeline that demonstrated the superiority of the integrative approach, since it takes into account different parameters for the drug (structure, cytotoxicity, transcriptional perturbation) to elucidate the mechanism of action (MoA). - I developed a bioinformatics pipeline to study the level of conservation of toxicity mechanisms between the in vivo and in vitro system, showing that human hepatocytes is a reliable model for hepatocarcinogens testing. Overall, our studies have provided a unique framework to leverage various types of transcriptomic data in order to understand the impact of chemicals on cell biology.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography