To see the other types of publications on this topic, follow the link: Bioinformatique structurale.

Dissertations / Theses on the topic 'Bioinformatique structurale'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Bioinformatique structurale.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Madaoui, Hocine. "Prédiction structurale et ingénierie des assemblages macromoléculaires par bioinformatique." Phd thesis, Université Paris-Diderot - Paris VII, 2007. http://tel.archives-ouvertes.fr/tel-00553875.

Full text
Abstract:
La caractérisation à haut débit des interactions protéines-protéines a permis d'établir les premières cartes d'interactions de différents organismes modèles, y compris l'homme. Cependant, la caractérisation structurale des assemblages protéiques reste limitée à un nombre très faible de ces interactions. En mettant en évidence une pression de sélection évolutive spécifique aux interfaces de complexes protéiques, ce travail a permis d'élucider certains mécanismes évolutifs essentiels à l'association entre protéines qui n'avaient pas été décrits jusqu'à présent. Sur cette base, une nouvelle approche bioinformatique, nommée SCOTCH (Surface COmplementarity Trace in Complex History), a été développée pour prédire la structure des assemblages macromoléculaires. Couplée à un programme d'amarrage moléculaire, tel que SCOTCHer, également développé au cours de cette thèse, cette approche a permis de prédire efficacement la structure d'un grand nombre de complexes. Ce travail de thèse s'est également concentré sur l'inhibition des interactions protéiques par des mini-protéines, conçues de façon rationnelle sur la base des structures de complexes. Les résultats obtenus pour deux exemples, celui du complexe Asf1 – Histone H3/H4 et du complexe gp120 – CD4 témoignent du fort potentiel du design rationnel d'interfaces de complexes pour le développement de nouvelles stratégies thérapeutiques.
APA, Harvard, Vancouver, ISO, and other styles
2

Madaoui, Hocine. "Prédiction structurale et ingenierie des assemblages macromoléculaires par bioinformatique." Paris 7, 2007. https://tel.archives-ouvertes.fr/tel-00553875.

Full text
Abstract:
La caracterisation a haut debit des interactions proteines-proteines a permis d'etablir les premieres cartes d'interactions de differents organismes modeles, y compris l'homme. Cependant, la caracterisation structurale des assemblages proteiques reste limitee a un nombre tres faible de ces interactions. En mettant en evidence une pression de selection evolutive specifique aux interfaces de complexes proteiques, ce travail a permis d'elucider certains mecanismes evolutifs essentiels a l'association entre proteines qui n'avaient pas ete decrits jusqu'a present. Sur cette base, une nouvelle approche bioinformatique, nommee scotch (surface complementarity trace in complex history), a ete developpee pour predire la structure des assemblages macromoleculaires. Couplee a un programme d'amarrage moleculaire, tel que scotcher, egalement developpe au cours de cette these, cette approche a permis de predire efficacement la structure d'un grand nombre de complexes. Ce travail de these s'est egalement concentre sur l'inhibition des interactions proteiques par des mini-proteines, conÇues de faÇon rationnelle sur la base des structures de complexes. Les resultats obtenus pour deux exemples, celui du complexe asf1 - histone h3/h4 et du complexe gp120 - cd4 temoignent du fort potentiel du design rationnel d'interfaces de complexes pour le developpement de nouvelles strategies therapeutiques
The high-throughput characterization of the protein-protein interactions networks laid the bases for the first interaction maps in all model organisms, including human. In contrast, the structures of the protein assembles are still restricted to a very limited set of interactions. In this work, a specific evolutionary pressure that is exerted at protein interfaces has been revealed. To our knowledge, no such effect had been previously described. Based on this finding, a novel bioinformatic approach, called scotch (surface complementarity trace in complex history) has been developed to predict the structures of protein assembles. Coupled to a docking program, such as scotcher also developed in this work, this approach was shown to predict efficiently the structures of many complexes. This work also focuses on the inhibition of protein interactions by synthetic peptides, rationally designed on the basis of the complex structure. The results obtained for two examples, the asf1 - histone h3/h4 and the gp120 - cd4 complexes emphasize the high interest of rational design of complex interface for the development of novel therapeutic strategies
APA, Harvard, Vancouver, ISO, and other styles
3

Sagot, Marie-France. "Ressemblance lexicale et structurale entre macromolécules : formalisation et approches combinatoires." Marne-la-Vallée, 1996. http://www.theses.fr/1996MARN0049.

Full text
Abstract:
Ce travail présente une formalisation du problème de la ressemblance entre macromolécules biologiques, ADN/ARN et protéines. Une première partie est ainsi composée par une exploration de cette ressemblance. D'une manière plus précise, ces macromolécules présentent la caractéristique commune d'être constituées par l'assemblage linéaire d'unités monomères distinctes (nucléotides pour l'ADN/ARN ou acides aminés pour les protéines) pouvant être représenté par une chaîne de symboles. Ces chaînes que nous allons vouloir comparer peuvent être vues comme des 'copies', ou des copies de copies différentes d'une même macromolécule ou d'une même forme ancestrale, chaque copie étant le résultat d'une suite particulière de transformations et de mutations effectuées sur des copies antérieures. Certaines parties de ces copies resteront cependant plus conservées que d'autres, et il est probable qu'il s'agit justement là de celles qui ont le plus de chance d'être associées, soit à une activité de la chaîne polymérique, soit à un élément structural qui sert de charpente à la structure générale de la macromolécule dans l'espace. Ce sont essentiellement ces parties qui nous intéressent dans ce travail et notre analyse des chaînes porte sur l'identification des mots présents dans ces chaînes et similaires entre eux d'une certaine façon. Outre l'idée d'une comparaison locale (mots), deux notions sont fondamentales dans les définitions de ressemblance que nous établissons : l'une est celle d'une comparaison multiple, l'autre celle de modèle. L'idée de la première repose sur l'observation que la comparaison simultanée d'un grand nombre d'objets permet d'être beaucoup plus sensible, c'est-à-dire, de détecter de plus faibles similarités entre ces objets. Le second concept (modèle) nous permet alors de réaliser cette comparaison simultanée de manière efficace. Un tel objet, qui est externe aux chaînes que l'on compare, peut être soit un mot sur le même alphabet, soit un produit cartésien de sous-ensembles des symboles de cet alphabet. La définition de ressemblance 'multiple' entre les mots des chaînes se trouve donc ramenée à cet objet de référence. Plus précisément, nous dirons que les mots d'un ensemble sont similaires entre eux s'il existe au moins un modèle auquel tous ressemblent. Notre recherche de mots similaires communs se résume alors à une recherche efficace de ces modèles présents, c'est-à-dire ayant des occurrences, dans au moins un certain nombre des chaînes de l'ensemble étudié. Finalement, le problème de la définition de la ressemblance entre mots se ramène à la définition de la ressemblance entre des mots et un modèle. Dans ce travail, nous proposons plusieurs de ces définitions avec le souci constant de leur conserver un caractère mathématiquement précis. Cette condition est en effet importante afin de donner au biologiste les moyens d'interpréter sans ambiguité les résultats fournis. Dans le même ordre d'idée, il est également important que les algorithmes de recherche des modèles soient exhaustifs. La seconde partie de ce travail a ainsi porté sur l'élaboration d'algorithmes combinatoires qui explorent tout l'espace des chaînes que l'on compare et qui fournissent en résultat une liste de tous les modèles, d'une longueur donnée ou de longueur maximale, présents, selon une des définitions de ressemblance entre modèle et mots, dans au moins un certain nombre des chaînes. Chacune de ces définitions a donné lieu à un algorithme spécifique. Le principe de base de ces algorithmes est cependant le même et s'appuie sur une formule de récurrence permettant la construction des modèles d'une certaine longueur à partir de ceux de longueur plus petite. Nous proposons ici des algorithmes qui sont tous linéaires dans la longueur totale des chaînes, et éventuellement exponentiels uniquement dans le degré de souplesse autorisé dans la ressemblance entre mots et modèles. Ce facteur exponentiel est intrinsèque au problème et représente toujours une situation de pire cas. Enfin, l'intérêt et les limitations actuelles de ces algorithmes sont illustrés sur des exemples biologiques
APA, Harvard, Vancouver, ISO, and other styles
4

Pihan, Émilie. "Recherche de nouveaux antipaludiques par bioinformatique structurale et chémoinformatique : application à deux cibles : PfAMA1 et PfCCT." Thesis, Nice, 2013. http://www.theses.fr/2013NICE4039/document.

Full text
Abstract:
Le paludisme est causé par cinq espèces du genre Plasmodium, P. falciparum étant le plus mortel. Des résistances de certaines souches du parasite ont été rapportées pour tous les médicaments mis sur le marché. Les moustiques vecteurs du parasite sont résistants aux insecticides et aucun vaccin n'est disponible. Cette maladie est un problème économique et de santé publique pour les pays en voie de développement. Mes travaux de thèses visent à identifier de nouveaux traitements contre le paludisme, en ciblant deux nouvelles protéines. Les Apicomplexes ont développé un mécanisme unique d'invasion, impliquant une interaction forte entre la cellule hôte et la surface du parasite, appelée jonction mobile. La caractérisation structurale et fonctionnelle du complexe AMA1-RON2 a ouvert la voie à la découverte de petites molécules capables d'empêcher l'interaction AMA1-RON2 et de ce fait, l'invasion. Le parasite a aussi besoin de phospholipides pour construire sa membrane durant le cycle érythrocytaire. Il y a six fois plus de phospholipides dans les érythrocytes infectés que dans les érythrocytes sains. Notre stratégie est d'inhiber la voie de synthèse de novo Kennedy et plus précisément, son étape limitante catalysée par la PfCCT. Des filtres basés sur le ligand (LBVS) et sur la structure (SBVS) ont été utilisés pour tester virtuellement les chimiothèques commerciales que j'ai préparées. Pour chaque projet, des molécules ont été sélectionnées pour leurs scores de docking et les interactions qu'elles établissent avec les résidus clés de la protéine. En combinant la bioinformatique structurale et la chémoinformatique, nous avons identifié des inhibiteurs potentiels des deux cibles protéiques
Human malaria is caused by five parasitic species of the genus Plasmodium, P. falciparum being the most deadly. Drug resistance of some parasite strains has been reported for commercial drugs. Vector mosquitoes are resistant to perythroid insecticides and no successful vaccine is available. This disease is a public and economic health issue for developing countries. My PhD projects investigate new treatments for malaria, by targeting two new proteins. Apicomplexa parasites have developed a unique invasion mechanism involving a tight interaction formed between the host cell and the parasite surfaces called Moving Junction. The structural and functional characterization of the AMA1-RON2 complex pave the way for the design of low molecular weight compounds capable of disrupting the AMA1-RON2 assembly and thereby invasion. The parasite also needs phospholipids to build its membrane during the erythrocytic cycle. There are six times more phospholipids in infected erythrocytes compared to healthy ones. Our strategy is to inhibit the de novo Kennedy pathway and more precisely its rate-limiting step catalysed by the enzyme PfCCT. Filters were used for ligand-based (LBVS) and structure-based virtual screening (SBVS) of commercial chemical databases that I have prepared. For each project, molecules were selected in terms of their docking scores and their interactions with key active site residues. By combining structural bioinformatics and cheminformatics, we identified potential inhibitors of the two protein targets
APA, Harvard, Vancouver, ISO, and other styles
5

Pihan, Émilie. "Recherche de nouveaux antipaludiques par bioinformatique structurale et chémoinformatique : application à deux cibles : PfAMA1 et PfCCT." Electronic Thesis or Diss., Nice, 2013. http://www.theses.fr/2013NICE4039.

Full text
Abstract:
Le paludisme est causé par cinq espèces du genre Plasmodium, P. falciparum étant le plus mortel. Des résistances de certaines souches du parasite ont été rapportées pour tous les médicaments mis sur le marché. Les moustiques vecteurs du parasite sont résistants aux insecticides et aucun vaccin n'est disponible. Cette maladie est un problème économique et de santé publique pour les pays en voie de développement. Mes travaux de thèses visent à identifier de nouveaux traitements contre le paludisme, en ciblant deux nouvelles protéines. Les Apicomplexes ont développé un mécanisme unique d'invasion, impliquant une interaction forte entre la cellule hôte et la surface du parasite, appelée jonction mobile. La caractérisation structurale et fonctionnelle du complexe AMA1-RON2 a ouvert la voie à la découverte de petites molécules capables d'empêcher l'interaction AMA1-RON2 et de ce fait, l'invasion. Le parasite a aussi besoin de phospholipides pour construire sa membrane durant le cycle érythrocytaire. Il y a six fois plus de phospholipides dans les érythrocytes infectés que dans les érythrocytes sains. Notre stratégie est d'inhiber la voie de synthèse de novo Kennedy et plus précisément, son étape limitante catalysée par la PfCCT. Des filtres basés sur le ligand (LBVS) et sur la structure (SBVS) ont été utilisés pour tester virtuellement les chimiothèques commerciales que j'ai préparées. Pour chaque projet, des molécules ont été sélectionnées pour leurs scores de docking et les interactions qu'elles établissent avec les résidus clés de la protéine. En combinant la bioinformatique structurale et la chémoinformatique, nous avons identifié des inhibiteurs potentiels des deux cibles protéiques
Human malaria is caused by five parasitic species of the genus Plasmodium, P. falciparum being the most deadly. Drug resistance of some parasite strains has been reported for commercial drugs. Vector mosquitoes are resistant to perythroid insecticides and no successful vaccine is available. This disease is a public and economic health issue for developing countries. My PhD projects investigate new treatments for malaria, by targeting two new proteins. Apicomplexa parasites have developed a unique invasion mechanism involving a tight interaction formed between the host cell and the parasite surfaces called Moving Junction. The structural and functional characterization of the AMA1-RON2 complex pave the way for the design of low molecular weight compounds capable of disrupting the AMA1-RON2 assembly and thereby invasion. The parasite also needs phospholipids to build its membrane during the erythrocytic cycle. There are six times more phospholipids in infected erythrocytes compared to healthy ones. Our strategy is to inhibit the de novo Kennedy pathway and more precisely its rate-limiting step catalysed by the enzyme PfCCT. Filters were used for ligand-based (LBVS) and structure-based virtual screening (SBVS) of commercial chemical databases that I have prepared. For each project, molecules were selected in terms of their docking scores and their interactions with key active site residues. By combining structural bioinformatics and cheminformatics, we identified potential inhibitors of the two protein targets
APA, Harvard, Vancouver, ISO, and other styles
6

Magis, Cedrik. "Conception de Ligands Protéiques par Bioinformatique et Modélisation Moléculaire." Phd thesis, Museum national d'histoire naturelle - MNHN PARIS, 2007. http://tel.archives-ouvertes.fr/tel-00553476.

Full text
Abstract:
L'accroissement des connaissances, structurales et fonctionnelles, des protéines nous donne désormais une vision plus précise des phénomènes d'interaction. L'utilisation de ces informations pour le développement de ligands permettrait d'obtenir de nouveaux composés, capables d'interagir avec diverses cibles d'intérêt, et d'améliorer notre compréhension de ces interactions. Ce travail présente le développement d'une nouvelle méthode de conception de ligands protéiques, laquelle repose sur le transfert d'un groupe de résidus, appartenant à un ligand connu et contribuant de façon importante à la liaison avec une cible d'intérêt, sur une protéine hôte, de moins de 100 résidus (mini-protéines). L'identification de protéines hôtes, aptes à reproduire l'interaction après transfert du motif, est réalisée de manière systématique à partir des structures présentes dans la PDB. L'approche a été appliquée pour le développement de ligands du canal Kv1.2, à partir de connaissances structurales et fonctionnelles de l'interaction de ce même canal avec la toxine BgK. Trois ligands, possédant des constantes d'inhibition micro molaires, ont été ainsi conçus. Ces résultats démontrent la possibilité de mettre en application une méthode de conception de ligands, basée sur le transfert de motifs de « hotspots », sur une plateforme structurale de nature protéique, dont les aspects stérique et électrostatique sont compatibles avec une interaction donnée.
APA, Harvard, Vancouver, ISO, and other styles
7

Nehdi, M. Atef. "Étude structurale du ribozyme VHD antigénomique par évolution in vitro couplée à une analyse bioinformatique." Thèse, Université de Sherbrooke, 2007. http://savoirs.usherbrooke.ca/handle/11143/4241.

Full text
Abstract:
Le virus de l'hépatite delta humaine (VHD) est un pathogène infectieux qui est associé à une hépatite fulminante chez l'humain. Ce virus possède un génome circulaire d'ARN simple brin comportant deux régions auto-catalytiques (ribozymes). Ce travail a pour but d'étudier le mécanisme moléculaire ainsi que le sentier de repliement tridimensionnel subit par ce ribozyme au cours de l'événement de coupure. Afin d'atteindre ce but, nous avons identifié toutes les interactions incluant les bases des ribonucléotides composant le coeur catalytique de ce ribozyme. Pour ce faire, nous avons utilisé l'approche de sélection in vitro (SELEX). Malgré son utilisation commune pour l'étude du ribozyme VHD, l'approche de SELEX n'a jamais donné de résultats concluants au sujet de la tectonique de ce ribozyme pendant l'événement de coupure. Ceci est dû au fait que dans toutes les analyses précédentes, le site catalytique du ribozyme n'a jamais été totalement dégénéré. Par conséquent, nous avons développé une stratégie de SELEX unique qui nous a permis de dégénérer la presque totalité du site catalytique et de sélectionner tous les ribozymes actifs existant dans la librairie combinatoire. Au contraire des stratégies de sélection basées sur l'utilisation du ribozyme en trans, la stratégie que nous avons développée est basée sur l'utilisation du ribozyme en cis. Cette stratégie nous a permis de dégénérer des nucléotides de la tige P1 connus pour être étroitement impliqués dans des interactions tertiaires avec des nucléotides du site catalytique. La preuve initiale du concept a été réalisée en dégénérant les six nucléotides formant la jonction entre la tige P4 et la tige P2 (J4/2). Les ribozymes sélectionnés après quatre cycles d'enrichissement possédaient une activité de coupure comparable à celle du ribozyme de type sauvage. Ce résultat montre que la stratégie développée est, non seulement fonctionnelle, mais aussi très efficace. La stratégie a ensuite été utilisée pour sélectionner des variants actifs du ribozyme à partir d'une librairie combinatoire contenant plus de 7.5x10[indice supérieur 15] mutants différents. Après 13 cycles de sélection, la population de ribozymes actifs commençait à être détectable. L'analyse des mutants sélectionnés a révélé une très faible variabilité entre les séquences. Ceci constituait une entrave pour l'étape suivante qui consiste à analyser la covariation des nucléotides dégénérés afin de définir le réseau des interactions tertiaires qui réunit ces nucléotides et qui est à l'origine de sa structure tridimensionnelle. La faible variabilit des séquences sélectionnées est due à la dominance des variants les plus actifs camouflant ainsi ceux qui étaient moins actifs. Face à cette situation, nous avons fait un réajustement de notre stratégie de sélection afin d'éviter cette dominance et de donner à tous les ribozymes actifs la même chance d'être amplifié. Nous avons recommencé la sélection en utilisant les nouveaux réajustements et le séquençage de plus de 500 clones a été réalisé, nous conduisant à 150 ribozymes de séquences différentes. Nous avons développé par la suite un programme informatique qui nous a permis d'analyser la covariation des nucléotides aux positions dégénérées. Les résultats de cette analyse de covariation sont en parfaite concordance avec la structure secondaire du ribozyme VHD antigénomique. En effet, toutes les paires de bases de type Watson-Crick, Wobble et homopurine ont été confirmées à l'exception de la paire de base C19-G81 au bas de la P2. L'analyse bioinformatique suggérait une faible covariation entre ces deux nucléotides et montre une forte interaction entre le C19 et le G80. Cette interaction a été prouvée par cartographie enzymatique et chimique. Bien que cette nouvelle interaction engendre un changement minime dans la structure secondaire du ribozyme VHD antigénomique, ce changement est très significatif. En effet, suite à cette interaction, la nouvelle structure secondaire du ribozyme antigénomique se rapprochait étonnamment de celle du ribozyme de version génomique, suggérant ainsi un lien phylogénique entre ces deux ribozymes. Le ribozyme VHD est naturellement actif dans les cellules humaines (les hépatocytes), mais son utilisation comme outil de thérapie génique fait toujours face à un problème majeur de spécificité. Afin de résoudre ce problème et de mieux contrôler ce ribozyme au niveau cellulaire, nous avons tenté de remodeler ce ribozyme pour le transformer en un ribozyme allostérique, toujours en utilisant la stratégie de sélection in vitro. Nous avons choisi comme cofacteur la protéine tat du VIH. Dans ce système où le cofacteur est une molécule de la cible, le ribozyme allostérique va avoir non seulement un gain de spécificité mais deviendra auto-inductible par sa cible, exactement à la manière d'un anticorps. En résumé, ce travail a permis de jeter un nouveau regard sur le site catalytique du ribozyme VHD tout en poussant la méthode de SELEX à un nouvel extrême.
APA, Harvard, Vancouver, ISO, and other styles
8

Nehdi, M. Atef. "Étude structurale du ribozyme VHD antigénomique par évolution in vitro couplée à une analyse bioinformatique." [S.l. : s.n.], 2007.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
9

Andreani, Jessica. "Analyse évolutive, prédiction structurale et inhibition des interactions protéine-protéine." Paris 6, 2013. http://www.theses.fr/2013PA066291.

Full text
Abstract:
Protein-protein interactions are of fundamental importance in virtually all cellular processes. This PhD thesis has focused on the analysis and prediction of these interactions through the combined use of structural data and evolutionary information. In a study of over 1,000 couples of homologous interfaces extracted from a database developed in our team, we uncovered astonishing plasticity in the way interface structure evolves, although we identified some rather invariant features which provide tracks for extracting meaningful information from multiple sequence alignments of binding partners. Consequently, we developed a coarse-grained interface scoring function using a multi-body statistical potential coupled to evolution. This scoring function improves the prediction of protein interfaces and was used among other methods on two practical cases of protein docking. Finally, we developed a robust computational protocol to rationalize the design of peptidic interaction inhibitors
Les interactions protéine-protéine sont fondamentales dans la plupart des processus cellulaires. Cette thèse est centrée sur l’analyse et la prédiction de ces interactions en utilisant à la fois les données structurales et l’information issue de l’évolution. A travers l’étude de plus de 1000 couples d’interfaces homologues, extraits d’une base de données développée dans notre équipe, nous avons mis en évidence une plasticité étonnante dans l’évolution de la structure des interfaces. Nous avons cependant identifié des propriétés assez conservées qui fournissent des pistes pour l’extraction d’information à partir des alignements de séquences multiples de deux partenaires en interaction. Nous avons ensuite développé une fonction de score « gros grain » utilisant un potentiel statistique multi-corps couplé à l’information évolutive. Cette fonction améliore les prédictions d’interfaces protéiques et a été utilisée dans deux cas concrets d’amarrage moléculaire. Enfin, nous avons développé un protocole bio-informatique robuste pour le design d’inhibiteurs peptidiques d’une interaction protéine-protéine
APA, Harvard, Vancouver, ISO, and other styles
10

Desmet, François-Olivier. "Bioinformatique et épissage dans les pathologies humaines." Thesis, Montpellier 1, 2010. http://www.theses.fr/2010MON1T017.

Full text
Abstract:
Découvert en 1977, l'épissage est une étape de maturation post-transcriptionnelle consistant à rabouter les exons et éliminer les introns d'un ARN pré-messager. Pour que l'épissage soit correctement pris en charge par l'épisome et ses protéines auxiliaires, différents signaux sont présents le long de la séquence de l'ARN pré-messager. Il est maintenant reconnu que près de la moitié des mutations pathogènes chez l'homme impactent l'épissage, aboutissant à un dysfonctionnement du gène. Il est ainsi indispensable pour les biologistes d'être capables de détecter ces signaux sur une séquence génomique.Cette thèse a donc pour but de concevoir de nouveaux algorithmes permettant d'apporter la puissance de calcul des ordinateurs au service de la biologie de l'épissage. La solution proposée, Human Splicing Finder (HSF), est capable de prédire les trois types de signaux d'épissage à partir d'une séquence quelconque extraite du génome humain. Nous avons évalué l'efficacité de prédiction d'HSF dans l'ensemble des situations associées à des mutations pathogènes pour lesquelles il a été démontré expérimentalement leur impact sur l'épissage et par rapport aux autres algorithmes de prédiction. Parallèlement à ces apports directs tant pour la connaissance des processus biologiques de l'épissage que pour le diagnostic, les nouvelles approches thérapeutiques génotype-spécifiques peuvent également bénéficier de ces nouveaux algorithmes. Ainsi HSF permet de mieux cibler les oligonucléotides anti-sens utilisés pour induire le saut d'exon dans la myopathie de Duchenne et les dysferlinopathies.La reconnaissance récente de l'intérêt majeur de l'épissage dans des domaines aussi variés que la recherche fondamentale, la thérapeutique et le diagnostic nécessitaient un point central d'accès aux signaux d'épissage. HSF a pour objet de remplir ce rôle, en étant régulièrement mis à jour pour intégrer de nouvelles connaissances, et est d'ores et déjà reconnu comme un outil de référence
Discovered in 1977, splicing is a post-transcriptional maturation process that consists in link-ing exons together and removing introns from a pre-messanger RNA. For splicing to be cor-rectly undertaken by the spliceosome and its auxiliary proteins, several signals are located along the pre-messanger RNA sequence. Nearly half of pathogenous mutations in humans are now recognized to impact splicing and leading to a gene dysfunction. Therefore it is es-sential for biologists to detect those signals in any genomic sequence.Thus, the goals of this thesis were to conceive new algorithms: i) to identify splicing signals; ii) to predict the impact of mutations on these signals and iii) to give access to this information to researchers thanks to the power of bioinformatics. The proposed solution, Human Splicing Finder (HSF), is a web application able to predict all types of splicing signals hidden in any sequence extracted from the human genome. We demonstrated the prediction's efficiency of HSF for all situations associated with pathogenous mutations for which an impact on splicing has been experimentally demonstrated. Along with these direct benefits for the knowledge of biological processes for splicing and diagnosis, new genotype-specific therapeutic approaches can also benefit from these new algorithms. Thus, HSF allows to better target antisense olignucleotides used to induce exon skipping in Duchenne myopathy and dysferlinopathies.The recent recognition of the major interest of splicing in various domains such as fundamen-tal research, therapeutics and diagnosis needed a one stop shop for splicing signals. HSF has for object to fulfill this need, being regularly updated to integrate new knowledge and is already recognized as an international reference tool
APA, Harvard, Vancouver, ISO, and other styles
11

Lallous, Nada. "Étude structurale et fonctionnelle des modules de reconnaissance des marques épigénétiques dans la protéine humaine UHRF1." Strasbourg, 2010. http://www.theses.fr/2010STRA6017.

Full text
Abstract:
La protéine humaine UHRF1, également connue sous le nom d’ICBP90, est une protéine nucléaire constituée de plusieurs domaines de reconnaissance de marques épigénétiques et capable d’interagir avec différents acteurs de la régulation épigénétique. Au cours de ce travail de thèse, nous avons réalisé une étude structurale et fonctionnelle des domaines SRA (SET and RING associated domain) et PHD (Plant Homeodomain) de hUHRF1, capables d’interagir respectivement avec l’ADN hémiméthylé et l’histone H3. Les domaines associés PHD et SRA ont été caractérisés par différentes techniques biophysiques pour mieux comprendre la fonction biologique de l’association de ces deux modules de reconnaissance de la chromatine (reconnaissance des histones et de l’ADN) dans la protéine. Les structures tridimensionnelles du domaine PHD de hUHRF1, seul et en complexe avec un peptide de l’histone H3, ont également été déterminées par les méthodes cristallographiques et la spécificité de reconnaissance du domaine PHD vis-à-vis de l’histone H3 a été caractérisée en solution
The human UHRF1 protein, also called ICBP90 (Inverted CCAAT box Binding protein of 90 kDa), is a multi-domain nuclear protein able to recognize different epigenetic marks and to interact with different actors of the epigenetic regulation. During this work, we characterized structurally and functionally the SRA (Set and RING associated domain) and the PHD (Plant Homeodomain) domains of hUHRF1, known to interact with hemimethylated DNA and histone H3 respectively. Different biophysical methods were used to characterize the associated domains PHD and SRA, to help in understanding the biological function of these two chromatin recognition modules in the UHRF1 protein. The three-dimensional structures of the hUHRF1 PHD domain, alone and in complex with a histone H3 peptide, were determined by X-ray crystallography and the specificity of histone H3 recognition by the PHD domain was characterized in solution
APA, Harvard, Vancouver, ISO, and other styles
12

Piuzzi, Marc. "Détermination de la structure de protéines à l’aide de données faiblement résolues." Paris 6, 2010. http://www.theses.fr/2010PA066510.

Full text
Abstract:
La connaissance des structures tridimensionnelles des macromolécules biologiques est indispensable pour mieux comprendre leur rôle et pour la conception de nouvelles molécules thérapeutiques. Les techniques utilisées actuellement offrent une grande variété d’approches qui utilisent à la fois des informations spécifiques à la protéine étudiée et des informations génériques communes à l’ensemble des protéines. Il est possible de classer ces méthodes en fonction de la quantité d’information utilisée dans chacune de ces deux catégories avec d’un côté des méthodes utilisant le plus possible de données spécifiques à la protéine étudiée et de l’autre les méthodes utilisant le plus possibles de données génériques présentes dans les bases de données. Le travail présenté dans cette thèse aborde deux utilisations de techniques mixtes, présentant une autre combinaison entre données spécifiques et données génériques. En particulier nous avons cherché à obtenir la structure de protéines composée d’un ou deux domaines en ne disposant que d’un nombre restreint de données spécifiques. Pour déterminer la structure d’une protéine de grande taille composée de deux domaines à l’aide de données de diffusion des rayons X et de modèles obtenus par de la modélisation par homologie, nous avons adapté puis optimisé un programme récemment développé au laboratoire. Nous avons ensuite modélisé la structure d’un domaine d’une protéine de virus en incorporant un faible nombre de contraintes issues des données obtenues par RMN dans une méthode de prédiction de structure « ab initio ». Enfin, nous avons étudié l’intérêt d’intégrer les courants de cycle, une composante du déplacement chimique, dans un programme d’arrimage moléculaire pour la résolution de complexes protéine-ADN.
APA, Harvard, Vancouver, ISO, and other styles
13

Gaschignard, Geoffroy. "Étude structurale de la calcyanine, nouvelle protéine impliquée dans la biominéralisation intracellulaire chez les cyanobactéries." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS272.

Full text
Abstract:
La biominéralisation est l'ensemble des processus qui mènent à la formation de minéraux par des êtres vivants. En 2012, un nouveau phénotype de biominéralisation a été décrit chez les cyanobactéries, caractérisé par la présence de précipités amorphes de carbonate d'alcalino-terreux intracellulaire. Une analyse de génomique comparative a montré que ce phénotype était associé à la présence d'un gène, encore non caractérisé, qui a été nommé ccyA. Ce gène code pour une protéine nommée calcyanine. La calcyanine a 4 variants qui partagent un même domaine C-terminal ((GlyZip)3), mais qui diffèrent par leur domaine N-terminal (CoBaHMA, X, Y ou Z). Aucun de ces 5 domaines n'est encore décrit dans la littérature. L'objectif de cette thèse a été de caractériser la structure 3D de la calcyanine de Synechococcus calcipolaris, variant à domaine CoBaHMA, en combinant des approches bioinformatiques et expérimentales, afin de progresser dans la connaissance de sa fonction. En combinant un ensemble de méthodes d’analyse de séquences et de modélisation, nous avons montré que le domaine CoBaHMA adopte un repliement « ferredoxin-like » typique de la superfamille HMA (« Heavy-Metal Associated ») et forme au sein de celle-ci une nouvelle famille, caractérisée par la conservation d’acides aminés basiques et la présence d’un brin β additionnel (1). Nous avons ensuite réalisé des recherches avancées de similitudes de séquence, intégrant les informations dérivées des modèles de structure 3D. Nous avons ainsi montré que le domaine CoBaHMA est présent dans différentes organisations modulaires au sein de taxa variés. Il existe sous la forme de domaine unique, ou accompagné d’autres domaines, en particulier des systèmes membranaires qui permettent, entre autre, le transport de substrats au travers des membranes (PIB-type ATPases, exporteurs ABC) ou qui constituent de nouvelles familles aux fonctions encore inconnues. Ces résultats permettent de proposer des hypothèses quant à la fonction moléculaire du domaine CoBaHMA (2). Nous avons également proposé un modèle cohérent des trois motifs glycine zippers individuels qui donnent leur nom au domaine (GlyZip)3 C-terminal des calcyanines. Ces glycine zippers forment une structure compacte de 2 hélices en épingle à cheveux, qui rappelle celle adoptée par des protéine transmembranaires formant des pores. Cependant, nous n’avons pu obtenir de modèle satisfaisant de l’assemblage des motifs glycine zipper, ni de leur interaction potentielle avec le domaine CoBaHMA, renforçant ainsi l’intérêt d’une étude expérimentale. Nous avons ainsi exprimé la calcyanine de S. calcipolaris chez Eschericha coli, et l’avons purifiée. Cette protéine s'est avérée peu stable, avec une propension à former un grand nombre d'objets de taille différentes en solution. Une expérience de protéolyse limitée a montré l'existence d'un fragment de la calcyanine résistant aux protéases, constitué du domaine CoBaHMA et du premier glycine zipper du domaine (GlyZip)3. Après expression hétérologue, nous avons donc purifié ce fragment fusionné à la protéine MBP (« Maltose Binding Protein »). Celui-ci ne forme qu'une espèce en solution, mais qui précipité facilement après avoir été séparé de la MBP. Nous avons cependant réussi à obtenir des cristaux de ce fragment offrant des perspectives encourageantes pour résoudre sa structure expérimentale. La calcyanine est donc une protéine difficile à étudier, tant par voie expérimentale que par modélisation. Néanmoins nous avons réussi à modéliser et caractériser plusieurs de ses fragments. Nous en avons déduit des informations pertinentes sur cette protéine. Plus particulièrement, nous avons mis en évidence une nouvelle famille de domaine, CoBaHMA, dont la présence dans d’autres architectures protéiques ouvre des perspectives pour comprendre sa fonction et son évolution. (1) Benzerara et al., 2022 14(3): evav026. doi :10.1093/gbe/evac026. (2) Gaschignard et al., En préparation
Biomineralisation is all the processes that lead to the formation of minerals by living beings. In 2012, a new biomineralization phenotype has been described in cyanobacteria, characterized by the presence of amorphous alkaline-earth carbonate inclusions inside the cells. A comparative genomic analysis revealed that this intracellular biomineralisation phenotype is linked to the presence of one gene, unknown at the time, which has been called ccyA. It codes for one protein called calcyanin. Calcyanin has 4 variants, that share the same C-terminus domain ((GlyZip)3), but which differ in their N-terminus domain (CoBaHMA, X, Y or Z). None of these 5 domains has already been described in the literature. The goal of this PhD was to characterize the 3D structure of Synechococcus calcipolaris’s calcyanin, which has a CoBaHMA domain, by combining bioinformatics and experimental approaches, in order to make hypothesis regarding its role. Through sequence analysis and 3D structure modeling, we showed that the CoBaHMA domain belongs to the “ferredoxin-like” fold, typical of the superfamily HMA (“Heavy Metal Associated”), and sets itself as a new family in it, characterized by conserved basic amino acids and an additional β strand (1). We have performed sequence similarity searches, refined with the structural information of the 3D structure models. This way, we showed that the CoBaHMA domain can be found on several different protein architectures, in various taxa. It exists has an independent domain, or in conjunction with other domains, especially membrane systems which, among others, allow transports of substrates through the membrane (PIB-type ATPases, ABC exporters) or new families with unknown functions. These results lead us to formulate hypotheses regarding the CoBaHMA domain function (2). We also proposed a robust model for the individual glycine zipper from which the name of the C-terminus domain (GlyZip)3 of calcyanins comes from. These glycine zippers have a structure of a compact hairpin made of two helices, which is akin to the ones of transmembrane proteins that form pore. However, we were not able to model satisfyingly their assembly nor their possible interactions with the CoBaHMA domain, emphasizing the importance of studying the protein experimentally. We successfully expressed calcyanin in Eschericha coli, and purified it. However the protein proved to be quite unstable, with a propensity to form a great diversity of objects with different sizes. A limited proteolysis experiment revealed the existence of a protease-resistant fragment of calcyanin, which encompasses the CoBaHMA domain and the first glycine zipper of the (GlyZip)3 domain. We expressed and purified this fragment, fused to MBP (« Maltose Binding Protein »). The fragment forms only one object in solution, but is prone to precipitation once separated from MBP. Yet we have successfully obtained crystals of this fragment, which pave the way to solve its experimental 3D structure. Calcyanin is a difficult protein to work with, both experimentally and by bioinformatics. But we managed to model and characterize several of its fragments. From that, we inferred relevant information on calcyanin. More specifically, we highlighted a new family of domains, CoBaHMA, which presence on other protein architectures opens up new hints to understand its function and evolution. (1) Benzerara et al., 2022 14(3): evav026. doi :10.1093/gbe/evac026. (2) Gaschignard et al., En préparation
APA, Harvard, Vancouver, ISO, and other styles
14

Cury, Jean. "Evolutionary genomics of conjugative elements and integrons." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCB062/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
15

Janky, Rekin's. "Etude bioinformatique de l'évolution de la régulation transcriptionnelle chez les bactéries." Doctoral thesis, Universite Libre de Bruxelles, 2007. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/210603.

Full text
Abstract:
L'objet de cette thèse de bioinformatique est de mieux comprendre l’ensemble des systèmes de régulation génique chez les bactéries. La disponibilité de centaines de génomes complets chez les bactéries ouvre la voie aux approches de génomique comparative et donc à l’étude de l’évolution des réseaux transcriptionnels bactériens. Dans un premier temps, nous avons implémenté et validé plusieurs méthodes de prédiction d’opérons sur base des génomes bactériens séquencés. Suite à cette étude, nous avons décidé d’utiliser un algorithme qui se base simplement sur un seuil sur la distance intergénique, à savoir la distance en paires de bases entre deux gènes adjacents. Notre évaluation sur base d’opérons annotés chez Escherichia coli et Bacillus subtilis nous permet de définir un seuil optimal de 55pb pour lequel nous obtenons respectivement 78 et 79% de précision. Deuxièmement, l’identification des motifs de régulation transcriptionnelle, tels les sites de liaison des facteurs de transcription, donne des indications de l’organisation de la régulation. Nous avons développé une méthode de recherche d’empreintes phylogénétiques qui consiste à découvrir des paires de mots espacés (dyades) statistiquement sur-représentées en amont de gènes orthologues bactériens. Notre méthode est particulièrement adaptée à la recherche de motifs chez les bactéries puisqu’elle profite d’une part des centaines de génomes bactériens séquencés et d’autre part les facteurs de transcription bactériens présentent des domaines Hélice-Tour-Hélice qui reconnaissent spécifiquement des dyades. Une évaluation systématique sur 368 gènes de E.coli a permis d’évaluer les performances de notre méthode et de tester l’influence de plus de 40 combinaisons de paramètres concernant le niveau taxonomique, l’inférence d’opérons, le filtrage des dyades spécifiques de E.coli, le choix des modèles de fond pour le calcul du score de significativité, et enfin un seuil sur ce score. L’analyse détaillée pour un cas d’étude, l’autorégulation du facteur de transcription LexA, a montré que notre approche permet d’étudier l’évolution des sites d’auto-régulation dans plusieurs branches taxonomiques des bactéries. Nous avons ensuite appliqué la détection d’empreintes phylogénétiques à chaque gène de E.coli, et utilisé les motifs détectés comme significatifs afin de prédire les gènes co-régulés. Au centre de cette dernière stratégie, est définie une matrice de scores de significativité pour chaque mot détecté par gène chez l’organisme de référence. Plusieurs métriques ont été définies pour la comparaison de paires de profils de scores de sorte que des paires de gènes ayant des motifs détectés significativement en commun peuvent être regroupées. Ainsi, l’ensemble des nos méthodes nous permet de reconstruire des réseaux de co-régulation uniquement à partir de séquences génomiques, et nous ouvre la voie à l’étude de l’organisation et de l’évolution de la régulation transcriptionnelle pour des génomes dont on ne connaît rien.

The purpose of my thesis is to study the evolution of regulation within bacterial genomes by using a cross-genomic comparative approach. Nowadays, numerous genomes have been sequenced facilitating in silico analysis in order to detect groups of functionally related genes and to predict the mechanism of their relative regulation. In this project, we combined prediction of operons and regulons in order to reconstruct the transcriptional regulatory network for a bacterial genome. We have implemented three methods in order to predict operons from a bacterial genome and evaluated them on hundreds of annotated operons of Escherichia coli and Bacillus subtilis. It turns out that a simple distance-based threshold method gives good results with about 80% of accuracy. The principle of this method is to classify pairs of adjacent genes as “within operon” or “transcription unit border”, respectively, by using a threshold on their intergenic distance: two adjacent genes are predicted to be within an operon if their intergenic distance is smaller than 55bp. In the second part of my thesis, I evaluated the performances of a phylogenetic footprinting approach based on the detection of over-represented spaced motifs. This method is particularly suitable for (but not restricted to) Bacteria, since such motifs are typically bound by factors containing a Helix-Turn-Helix domain. We evaluated footprint discovery in 368 E.coli K12 genes with annotated sites, under 40 different combinations of parameters (taxonomical level, background model, organism-specific filtering, operon inference, significance threshold). Motifs are assessed both at the level of correctness and significance. The footprint discovery method proposed here shows excellent results with E. coli and can readily be extended to predict cis-acting regulatory signals and propose testable hypotheses in bacterial genomes for which nothing is known about regulation. Moreover, the predictive power of the strategy, and its capability to track the evolutionary divergence of cis-regulatory motifs was illustrated with the example of LexA auto-regulation, for which our predictions are remarkably consistent with the binding sites characterized in different taxonomical groups. A next challenge was to identify groups of co-regulated genes (regulons), by regrouping genes with similar motifs, in order to address the challenging domain of the evolution of transcriptional regulatory networks. We tested different metrics to detect putative pairs of co-regulated genes. The comparison between predicted and annotated co-regulation networks shows a high positive predictive value, since a good fraction of the predicted associations correspond to annotated co-regulations, and a low sensitivity, which may be due to the consequence of highly connected transcription factors (global regulator). A regulon-per-regulon analysis indeed shows that the sensitivity is very weak for these transcription factors, but can be quite good for specific transcription factors. The originality of this global strategy is to be able to infer a potential network from the sole analysis of genome sequences, and without any prior knowledge about the regulation in the considered organism.
Doctorat en Sciences
info:eu-repo/semantics/nonPublished

APA, Harvard, Vancouver, ISO, and other styles
16

Bourquard, Thomas. "Exploitation des algorithmes génétiques pour la prédiction de structures protéine-protéine." Paris 11, 2009. http://www.theses.fr/2009PA112302.

Full text
Abstract:
Les fonctions de la majorité des protéines sont surbordonnées à l’interaction avec un ou plusieurs partenaires : acide nucléiques, autres protéines,… La plupart de ces interactions sont transitoires, difficiles à détecter expérimentalement et leur structures sont souvent impossible à obtenir. C’est pourquoi la prédiction in silico de l’existence des ces interactions et la structure du complexe résultant ont été l’objet de nombreuses études depuis plus d’une décennie maintenant. Pour autant les protéines sont des objets complexes et les méthodes informatiques classiques sont trop « gourmandes » en temps pour l’exploration à grande échelle de l’interactome des différents organismes. Dans ce contexte de développement d’une méthode de docking protéine-protéine haut débit nous présenterons ici l’implémentation d’une nouvelle méthode d’amarrage, celle-ci est basée sur : L’utilisation de deux types de formalismes : les tessellations de Voronoï et Laguerre permettant la manipulation de modèles géométriques simplifiés permettant une bonne modélisation des complexes et des temps de calcul plus raisonnable qu’en représentation atomique. L’utilisation et l’optimisation d’algorithmes d’apprentissage (algorithmes génétiques) permettant d’isoler les conformations les plus pertinentes entre deux partenaires protéiques. Une méthode d’évaluation basée le clustering de méta-attributs calculés au niveau de l’interface permettant de trier au mieux ce sous-ensemble de conformations candidates
Most proteins fulfill their functions through the interaction with one or many partners as nucleic acids, other proteins…. Because most of these interactions are transitory, they are difficult to detect experimentally and obtaining the structure of the complex is generally not possible. Consequently, “in silico prediction” of the existence of these interactions and of the structure of the resulting complex has received a lot of attention in the last decade. However, proteins are very complex objects, and classical computing approaches have lead to computer-time consuming methods, whose accuracy is not sufficient for large scale exploration of the so-called “interactome” of different organisms. In this context development of high-throughput prediction methods for protein-protein docking is needed. We present here the implementation of a new method based on : Two types of formalisms : the Vornonoi and Laguerre tessellations, two simplified geometric models for coarse-grained modeling of complexes. This leads to computation time more reasonable than in atomic representation, the use and optimization of learning algorithms (genetic algorithms) to isolate the most relevant conformation between two two protein parteners, an evaluation method based on clustering of meta-attributes calculated at the interface to sort the best subset of candidate conformations
APA, Harvard, Vancouver, ISO, and other styles
17

Estana, Alejandro. "Algorithms and comptutational tools for the study of Intrinsically Disordered Proteins." Thesis, Toulouse, INSA, 2020. http://www.theses.fr/2020ISAT0012.

Full text
Abstract:
Les protéines intrinsèquement désordonnées (IDPs) sont impliquées dans de nombreux processus biologiques. Leur plasticité facilite des tâches très spécialisées dans la régulation et la signalisation cellulaires, et leur dysfonctionnement est lié à des pathologies graves. Comprendre les rôles fonctionnels des IDPs nécessite leur caractérisation structurale, qui est extrêmement difficile, utilisant un couplage entre méthodes expérimentales et informatiques. Contrairement aux protéines globulaires, les IDPs ne peuvent pas être représentés par une seule conformation et leurs modèles doivent être basés sur des ensembles de conformations représentant une distribution des états que la protéine adopte en solution. Alors que les régions purement destructurées peuvent être bien modélisés par les outils de bioinformatique disponibles, ces outils ne parviennent pas à reproduire l'équilibre conformationnel présent dans des régions partiellement structurées.Dans cette thèse, nous proposons plusieurs méthodes bioinformatiques qui, combinées avec des données expérimentales, permettent une meilleure caractérisation structurale des IDPs. Elles peuvent être regroupées en deux catégories : les méthodes de construction de modèles d'ensembles conformationnels, et les méthodes de simulation de transitions conformationnelles.Avec le premier type de méthodes, nous proposons une nouvelle approche qui améliore les méthodes existantes afin de générer des ensembles conformationnels réalistes, en permettant de reproduire les régions partiellement structurées dans les IDPs.Cette méthode exploite les informations structurales codées dans une base de données de fragments de trois résidus (tripeptides) extraites de structures protéiques à haute résolution.Nous avons montré que les ensembles conformationnels générés par notre méthode reproduisent avec précision les descriptions structurales obtenues à partir d’expériences de RMN et SAXS pour neuf IDPs de référence. Exploitant également la base de données des tripeptides, nous avons développé un algorithme pour prédire la propension de certaines régions dans des IDPs à former des éléments de structure secondaire. Cette nouvelle méthode fournit des résultats plus précis que ceux de prédicteurs plus couramment utilisés, pour nos IDPs de référence.Avec le second type de méthodes, nous avons développé une approche originale pour modéliser le mécanisme de repliement des éléments de structure secondaire. Le calcul des transitions est formulé comme un problème de recherche de chemin discret utilisant la base de données de tripeptides. Pour évaluer l'approche, nous l'avons appliquée à deux petits polypeptides synthétiques imitant deux motifs structuraux communs. Les mécanismes de repliement extraits sont très similaires à ceux obtenus par des approches traditionnelles coûteuses en calcul. Enfin, nous avons développé une méthode plus générale pour calculer les chemins de transition entre conformations dans un ensemble d'IDPs. Elle repose sur une variante multi-arbres de l'algorithme TRRT, développé au LAAS-CNRS, et qui a donné de bons résultats pour de petites et moyennes biomolécules. Afin d'appliquer cette méthode aux IDPs, nous avons proposé une stratégie hybride pour la parallélisation de l'algorithme, permettant une exécution efficace dans des clusters.Outre les travaux méthodologiques mentionnés, j'ai participé activement à des travaux multidisciplinaires avec des biophysiciens et des biologistes, en appliquant ces méthodes à l'étude de systèmes biologiques importants, comme la protéine huntingtine impliquée dans la maladie de Huntington.En conclusion, les travaux menés au cours de ma thèse ont permis de mieux comprendre la relation séquence-structure des IDPs, ouvrant la voie à de nouvelles applications. En effet, ceci nous permettra, par exemple, d’anticiper les perturbations structurales dues aux mutations et, in fine, à la conception rationnelle d’IDPs spécifiques pour des applications biotechnologiques
Intrinsically Disordered Proteins (IDPs) are involved in many biological processes. Their inherent plasticity facilitates very specialized tasks in cell regulation and signalling, and their malfunction is linked to severe pathologies. Understanding the functional roles of IDPs requires their structural characterization, which is extremely challenging, and needs a tight coupling of experimental and computational methods. In contrast to structured/globular proteins, IDPs cannot be represented by a single conformation, and their models must be based on ensembles of conformations representing a distribution of states that the protein adopts in solution. While purely random coil ensembles can be reliably constructed by available bioinformatics tools, these tools fail to reproduce the conformational equilibrium present in partially-structured regions.In this thesis, we propose several computational methods that, combined with experimental data, provide a better structural characterization of IDPs. These methods can be grouped in two main categories: methods to construct conformational ensemble models, and methods to simulate conformational transitions.Contributing to the first type of methods, we propose a new approach to generate realistic conformational ensembles that improves previously existing methods, being able to reproduce the partially-structured regions in IDPs.This method exploits structural information encoded in a database of three-residue fragments (tripeptides) extracted from high-resolution experimentally-solved protein structures.We have shown that conformational ensembles generated by our method reproduce accurately structural descriptors obtained from NMR and SAXS experiments for a benchmark set of nine IDPs. Also exploiting the tripeptide database, we have developed an algorithm to predict the propensity of some fragments inside IDPs to form secondary structure elements. This new method provides more accurate results than those of the most commonly-used predictors available on our benchmark set of well-characterized IDPs.Contributing to the second type of methods, we have developed an original approach to model the folding mechanism of secondary structural elements. The computation of conformational transitions is formulated as a discrete path search problem using the tripeptide database. To evaluate the approach, we have applied the strategy to two small synthetic polypeptides mimicking two common structural motifs in proteins. The folding mechanisms extracted are very similar to those obtained when using traditional, computationally expensive approaches. Finally, we have developed a more general method to compute transition paths between a (possibly large) set of conformations of an IDP. This method builds on a multi-tree variant of the TRRT algorithm, developed at LAAS-CNRS, and which provided good results for small and middle-sized biomolecules. In order to apply this method to IDPs, we have proposed a hybrid strategy for the parallelization of the algorithm, enabling an efficient execution in computer clusters.In addition to the aforementioned methodological work, I have been actively involved in multidisciplinary work, together with biophysicists and biologists,where I have applied these methods to the investigation of important biological systems, in particular the huntingtin protein, the causative agent of Huntington's disease.In conclusion, the work carried out during my PhD thesis has enabled a better understanding of the relationship between sequence and structural properties of IDPs, paving the way to novel applications. For example, this deeper understanding of sequence-structure relationships will enable us to anticipate structural perturbations exerted by sequence mutations, and subsequently, the rational design of IDPs with tailored properties for biotechnological applications
APA, Harvard, Vancouver, ISO, and other styles
18

Autin, Ludovic. "Analyse des systèmes tenase et prothrombinase par bioinformatique structurale : prédiction de complexes macromoléculaires et proposition d'agents anti-coagulants." Paris 5, 2005. http://www.theses.fr/2005PA05P627.

Full text
Abstract:
Analyse des systèmes tenase et prothrombinase par bioinformatique structurale : prédiction de complexes macromoléculaires et proposition d'agents anticoagulants. Les deux complexes protéiques Tenase (F8a, F9a, F10) et Prothrombinase (F5a, F10a, PTH), sont les éléments pivots de la coagulation du sang. Ces complexes reposent sur des interactions protéineprotéine dont la nature moléculaire reste peu connue. La bioinformatique va nous permettre de mieux comprendre ces interactions. Une des méthodes prometteuses en découlant est le " docking " : étant données les coordonnées atomiques de deux molécules, il faut prédire le mode de liaison "correcte". Cette approche par docking nous a permis de générer des milliers de complexes. Par le biais de filtres successifs, utilisant des données expérimentales, nous avons sélectionné 10 complexes du tenase différents et un modèle du prothrombinase tous en accord avec les données expérientales. Ces modèles ouvrent la porte à des expérimentations clarifiant certains points ambigus, et à des études de criblage virtuel afin d'identifier de nouvaux agents potentiellement actives à l'interface protéineprotéin
Analysis of the tenase and prothrombinase systems by structural bioinformatic : macromolecular complexes prediction and proposition of new anticoagulant drug. The Tenase (F8a, F9a, F10) and Prothrombinase (F5a, F10a, PTH) complexes are essential in the blood coagulation. These complexes assembly are based on proteinprotein interactions which are not yet understood at the molecular levels. Thus, the bioinformatics lead us to a better comprehension of these interactions. And so, the most promising method is the " docking ", which permits to find the nearest interface between two molecules structures. This theoretical approach generates hundred of structural interfaces. Based on agreements with known experimental data, ten representative models of the tenase complex and one prothrombinase complex were selected. These structural models open the door of future experimentation helping clarify several ambiguous points and of future virtualscreening study in order to identify new lead able to bind pocket at proteinprotein interface
APA, Harvard, Vancouver, ISO, and other styles
19

Traore, Seydou. "Computational approaches toward protein design." Thesis, Toulouse, INSA, 2014. http://www.theses.fr/2014ISAT0033/document.

Full text
Abstract:
Le Design computationnel de protéines, en anglais « Computational Protein Design » (CPD), est un champ derecherche récent qui vise à fournir des outils de prédiction pour compléter l'ingénierie des protéines. En effet,outre la compréhension théorique des propriétés physico-chimiques fondamentales et fonctionnelles desprotéines, l’ingénierie des protéines a d’importantes applications dans un large éventail de domaines, y comprisdans la biomédecine, la biotechnologie, la nanobiotechnologie et la conception de composés respectueux del’environnement. Le CPD cherche ainsi à accélérer le design de protéines dotées des propriétés désirées enpermettant le traitement d’espaces de séquences de large taille tout en limitant les coûts financier et humain auniveau expérimental.Pour atteindre cet objectif, le CPD requière trois ingrédients conçus de manière appropriée: 1) une modélisationréaliste du système à remodeler; 2) une définition précise des fonctions objectives permettant de caractériser lafonction biochimique ou la propriété physico-chimique cible; 3) et enfin des méthodes d'optimisation efficacespour gérer de grandes tailles de combinatoire.Dans cette thèse, nous avons abordé le CPD avec une attention particulière portée sur l’optimisationcombinatoire. Dans une première série d'études, nous avons appliqué pour la première fois les méthodesd'optimisation de réseaux de fonctions de coût à la résolution de problèmes de CPD. Nous avons constaté qu’encomparaison des autres méthodes existantes, nos approches apportent une accélération du temps de calcul parplusieurs ordres de grandeur sur un large éventail de cas réels de CPD comprenant le design de la stabilité deprotéines ainsi que de complexes protéine-protéine et protéine-ligand. Un critère pour définir l'espace demutations des résidus a également été introduit afin de biaiser les séquences vers celles attendues par uneévolution naturelle en prenant en compte des propriétés structurales des acides aminés. Les méthodesdéveloppées ont été intégrées dans un logiciel dédié au CPD afin de les rendre plus facilement accessibles à lacommunauté scientifique
Computational Protein Design (CPD) is a very young research field which aims at providing predictive tools to complementprotein engineering. Indeed, in addition to the theoretical understanding of fundamental properties and function of proteins,protein engineering has important applications in a broad range of fields, including biomedical applications, biotechnology,nanobiotechnology and the design of green reagents. CPD seeks at accelerating the design of proteins with wanted propertiesby enabling the exploration of larger sequence space while limiting the financial and human costs at experimental level.To succeed this endeavor, CPD requires three ingredients to be appropriately conceived: 1) a realistic modeling of the designsystem; 2) an accurate definition of objective functions for the target biochemical function or physico-chemical property; 3)and finally an efficient optimization framework to handle large combinatorial sizes.In this thesis, we addressed CPD problems with a special focus on combinatorial optimization. In a first series of studies, weapplied for the first time the Cost Function Network optimization framework to solve CPD problems and found that incomparison to other existing methods, it brings several orders of magnitude speedup on a wide range of real CPD instancesthat include the stability design of proteins, protein-protein and protein-ligand complexes. A tailored criterion to define themutation space of residues was also introduced in order to constrain output sequences to those expected by natural evolutionthrough the integration of some structural properties of amino acids in the protein environment. The developed methods werefinally integrated into a CPD-dedicated software in order to facilitate its accessibility to the scientific community
APA, Harvard, Vancouver, ISO, and other styles
20

Colcombet-Cazenave, Baptiste. "Structural and functional characterization of the protein PDZD7 as part of the Usher2 complex." Electronic Thesis or Diss., Sorbonne université, 2022. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2022SORUS323.pdf.

Full text
Abstract:
L’audition repose sur la transduction, par les cellules sensorielles de la cochlée, des ondes sonores en signaux électriques alors transmis au cerveau. Ces cellules, dites ciliées, possèdent des touffes de stéréocils d’actine organisés en rangées de taille croissante. De larges complexes protéiques sont trouvés aux sites d’ancrage de liens extracellulaires connectant ces stéréocils entre eux. Des mutations dans ces protéines induisent des maladies sensorielles héréditaires, notamment le syndrome Usher. Le syndrome Usher de type 2 (Usher 2) est la première cause de surdité congénitale associée à une cécité chez l’Homme. Le complexe protéique Usher 2, impliqué dans le développement des touffes ciliaires, est composé de deux protéines transmembranaires, l’usherine et ADGRV1, qui possèdent de larges domaines extracellulaires formant des liens fibreux à la base des stéréocils. Ces deux protéines ont un domaine intracellulaire en interaction avec les protéines d’échafaudage whirline et PDZD7, qui interagissent à leur tour avec des protéines de liaison à l’actine. Les protéines Usher possèdent de multiples domaines d’interaction protéine-protéine nécessaires à la formation de complexes, mais l’organisation générale du réseau reste largement inconnue, ce qui ne permet pas d’interpréter l’effet de mutations Usher. Dans ce projet de thèse, j’ai étudié le complexe Usher 2 depuis l’échelle moléculaire (in silico et in vitro) jusqu’à l’échelle cellulaire. J’ai en premier lieu analysé les séquences protéiques de la famille de domaines HHD, exprimés seulement dans quelques protéines neuronales, en utilisant des outils bioinformatiques afin de prédire la fonction de différentes surfaces dans des interactions protéine-protéine ainsi que l’effet de mutations pathogènes humaines. Par la suite, je me suis intéressé aux déterminants d’interaction entre le récepteur d’adhésion couplé aux protéines G (RCPG) ADGRV1 et sa protéine régulatrice à domaine PDZ PDZD7. J’ai ainsi montré que les deux domaines N-terminaux de PDZD7 interagissent avec le PBM d’ADGRV1, avec une meilleure affinité pour le second PDZ. Cette interaction requiert la présence d’extensions C-terminales dans les deux domaines PDZ. Ces extensions adoptent une structure en brins beta. J’ai montré que des mutations de PDZD7 provoquent une perte drastique d’affinité pour ADGRV1, dissociant potentiellement le complexe Usher 2. Afin de mieux comprendre les mécanismes d’activation d’ADGRV1, j’ai entamé l’étude structurale du complexe RCPG/protéine G par cryo-microscopie électronique. A l’échelle cellulaire, j’ai utilisé la microscopie de fluorescence à haute résolution STED afin de décrire la distribution du complexe Usher 2 entre les différents stéréocils des cellules ciliées. Enfin, j’ai entamé un projet ambitieux de cryo-microscopie électronique en tomographie visant à déterminer l’organisation générale du complexe Usher 2 in situ, dans l’organe de l’audition. J’ai ainsi optimisé la préparation d’échantillon pour « cryo-Correlative Light and Electron Microscopy Focused Ion Beam milling (cryo-CLEM FIB milling) » et réalisé le premier prélèvement d’une lamelle de cochlée de souris disséquée. Les résultats obtenus permettront de mieux comprendre la physiopathologie des mutations associées au syndrome Usher de type 2
Hearing relies on the capacity of specialized sensory hair cells in the cochlea to transduce sound-induced vibrations into electrical signals that are transmissible to the brain. Hair cells possess actin-filled stereocilia structured into staircase-shaped bundles deflected by sound-waves. Large protein complexes are found at the anchoring sites of extracellular links that interconnect stereocilia. Mutations of these proteins are responsible for hereditary sensory diseases, notably the Usher syndromes. The Usher syndrome of type 2 (Usher 2) is the most common form genetic cause of combined congenital deafness and progressive blindness. The Usher 2 protein complex, involved in the morphogenesis of the hair bundles, encompasses two large transmembrane proteins, usherin and the G protein-coupled receptor (GPCR) ADGRV1, with very large extracellular domains forming fibrous links between the stereocilia. These two proteins possess a cytoplasmic region in interaction with the scaffolding proteins whirlin and PDZD7, which in turn associate to actin-binding proteins. Usher proteins contain numerous protein-protein interaction domains necessary to the intricacy of the network, but the network’s assembly remains elusive, thus leaving the effect of mutations detected in patients to speculation. In this project, I studied the Usher 2 complex components from the molecules (in silico and in vitro) to the complex assembly at the cellular level. First, I deeply analyzed the sequences of the orphan domain family HHD, found in few neuronal proteins, using bioinformatics tools to predict functional surfaces involved in protein-protein interactions and the effect of human pathogenic mutations. Then, I characterized the determinants of interaction between the adhesion GPCR ADGRV1 and its PDZ-domain containing regulator PDZD7. I showed that the two N-terminal PDZ domains of PDZD7 are able to interact with ADGRV1 PDZ binding motif, with a higher affinity for the second PDZ. This interaction requires C-terminal extension of the PDZ domains which likely adopts a beta strand conformation in solution. I showed that two human pathological mutations of PDZD7 PDZ domains trigger a drastic decrease of affinity for ADGRV1, potentially disrupting the Usher2 complex. To further understand the activation mechanism of ADGRV1, I started its structural characterization in complex with its associated G protein by cryo electron microscopy. At the cellular level, I used high resolution STED microscopy to decipher the accurate localization of the Usher 2 complex and its anisotropic distribution between hair cell stereocilia rows. Finally, I initiated an ambitious cryo electron tomography project to solve the general organization of the Usher 2 complex in situ. To this end, I optimized the cochlea preparation for cryo-Correlative Light and Electron Microscopy Focused Ion Beam milling (cryo-CLEM FIB milling) and performed the first lift-out procedure on mouse dissected cochlea. Altogether, the obtained results will help to understand the physiopathology of mutations associated to the Usher syndrome of type 2
APA, Harvard, Vancouver, ISO, and other styles
21

Nadaradjane, Aravindan. "Exploring the use of Deep Mutational Scanning and of Evolution for the Structural Prediction of Protein Complexes." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS014.

Full text
Abstract:
L’objectif de cette thèse a été de développer des stratégies computationnelles permettant d’exploiter les informations issues des technologies de mutagenèse à haut débit (deep mutational scanning, DMS) pour prédire le mode d’assemblage des protéines. Pour cela, j’ai cherché à améliorer l’accord entre les modèles simulés par les techniques d’amarrage moléculaire et les contraintes expérimentales. Deux complexes de référence dont les structures ont été résolues expérimentalement et pour lesquels les données de DMS ont été publiées ont été utilisés pour la mise au point de ces méthodes, les complexes parD3-parE3 et dockerin-cohesin. Pour chacun des nombreux mutants générés par DMS, une mesure expérimentale de score de liaison quantifiant l’affinité des partenaires en complexe a pu être extraite. Pour la modélisation, différents protocoles basés sur le logiciel Rosetta ont été explorés pour prédire l’effet des mutations sur la stabilité des interfaces. Un compromis entre efficacité et précision a été identifié, permettant d’estimer de façon satisfaisante l’effet des mutations sur les structures natives des complexes. L’accord entre prédiction et données expérimentales a été quantifié en utilisant deux métriques, la corrélation entre les scores d’affinité prédits et mesurés et l’aire sous la courbe ROC (Receiver Operating Characteristic) définissant l’efficacité du prédicteur à classer correctement les mutations ayant le plus fort impact. Appliquées sur un ensemble de 1000 modèles de complexes issus des simulations d’amarrage, ces deux métriques ont été évaluées dans leur capacité à discriminer les modèles corrects des modèles faux. Pour les deux systèmes étudiés, la deuxième métrique apparaît comme la mieux adaptée. La méthodologie a ensuite été appliquée à un cas de complexe antigène-anticorps dans le cadre d’une collaboration avec l’équipe de B. Maillère. Mon travail de thèse a également été consacré au traitement des données de DMS générées avec nos collaborateurs O. Pereira-Ramos et L. Martin dans un cas de design de peptides à haute affinité pour la protéine Asf1 et pour le criblage des surfaces d’interaction de cette protéine avec ses partenaires. Enfin, j’ai participé tout au long de mon doctorat aux différentes cibles proposées par les organisateurs du 7ème concours CAPRI, concours international pour l’évaluation des méthodes de prédiction des structures de complexes protéiques. Le manuscrit détaille l’ensemble des stratégies mises en oeuvre qui ont permis à notre équipe de se classer en tête de ce concours en générant le plus grand nombre de modèles corrects et précis
The thesis project aimed at developing computational strategies to exploit the information generated by deep mutational scanning (DMS) technologies to predict the structures of protein assemblies. In that scope, I explored how to improve the agreement between the models simulated by molecular docking and experimental constraints. From the literature, two reference complexes whose structures have been solved experimentally and for which DMS data were published could be used for the methodological development: the parD3-parE3 and dockerin-cohesin complexes. For each of the many mutants generated by DMS, an experimental score quantifying the affinity of the complex could be extracted from the available data. For the simulations, a number of protocols based on the Rosetta software were tested and optimized to predict the effect of mutations on interface stability. A compromise was found between efficiency and precision, allowing for a fair estimation of the effect of mutations on native complex structures. The agreement between the predicted and the experimental data was quantified using two different metrics, either the correlation between the predicted and experimental binding scores or the area under the ROC (Receiver Operating Characteristic) curve, defining how efficiently the predictor could sort out the most impacting mutations. Applied to a set of 1000 decoys of complexes generated by docking, both metrics were assessed for their ability to discriminate correct from wrong models. For both reference systems, the second metrics based on ROC curves was found most useful. This methodology was further applied to an antibody-antigen complex which was studied by DMS in the group of B. Maillère. My PhD work was also dedicated to the processing of the raw data from DMS experiments which were generated by our collaborators, O. Pereira-Ramos and L. Martin, in order to design a high affinity peptide for the protein Asf1 and to screen interaction surfaces between Asf1 and its binding partners. Last, throughout my PhD I had the opportunity to participate in all targets submitted to the docking community by the organizers of CAPRI, an international challenge for the assessment of methods for the structural prediction of protein interactions. The manuscript details all the strategies which were set up to tackle these challenges for which our team eventually ranked first by generating the highest number of both correct and precise models
APA, Harvard, Vancouver, ISO, and other styles
22

Candat, Adrien. "Analyse de la localisation subcellulaire des protéines LEA (late embryogenesis abundant) chez Arabidopsis thaliana par des approches de bioinformatique et de biologie cellulaire." Angers, 2012. http://www.theses.fr/2012ANGE0048.

Full text
Abstract:
L’anhydrobiose est la capacité de survivre à une dessiccation extrême, puis de reprendre un métabolisme normal après le retour à des conditions hydriques favorables. Il s’agit d’un phénomène reposant sur de multiples facteurs dont l’accumulation de protéines de stress de type LEA (Late Embryogenesis Abundant). Ces protéines généralement très hydrophiles et désordonnées à l’état natif sont regroupées en plusieurs familles sur la base de leur séquence primaire. Chez la plante modèle Arabidopsis thaliana, 51 gènes codant des protéines LEA ont été identifiés précédemment. L’objectif de ce travail a été de caractériser la localisation subcellulaire des protéines correspondantes, afin de mieux appréhender leurs fonctions encore énigmatiques. Des analyses bioinformatiques et des approches expérimentales basées sur l'expression transitoire de protéines de fusion fluorescentes dans des protoplastes ou des plantules d’Arabidopsis ont été utilisées. Les résultats expérimentaux ont mis en évidence les limites des analyses de localisation subcellulaire basées uniquement sur des prédictions in silico, et contribueront à améliorer les algorithmes de prédiction. Une méthodologie originale permettant d’identifier avec précision les sites de clivage des peptides d'adressage pour les protéines importées dans les organites a également été développée. L'ensemble des données acquises sur la localisation et la maturation des protéines LEA est en effet indispensable pour la conception de protéines recombinantes identiques aux protéines maturées in vivo dans les organites. Enfin, la mise en relation des observations de localisation subcellulaire effectuées au cours de ce travail avec les données de classification des protéines LEA et d’expression des gènes correspondant a permis de proposer de nouvelles hypothèses concernant leurs fonctions potentielles
Anhydrobiosis is the ability to survive severe desiccation and to resume normal metabolism upon a return to favorable conditions of water availability. It is a phenomenon based on mutiple factors, including the accumulation of stress proteins such as LEA (Late Embryogenesis Abundant) proteins. These proteins, which in the native state are generally very hydrophilic and disordered, are clustered into several families based on their primary sequence. In the model plant Arabidopsis thaliana, 51 genas encoding LEA proteins have been previously identified. The purpose of this work was to characterize the subcellular localization of these LEA proteins in order to better understand their, as yet, enigmatic functions. Bioinformatic analyses and experimental approaches, based on transient expression of fluorescent fusion proteins in Arabidopsis protoplasts, or seedlings, were used. The experimental data highlight the limits of in silico predictions for analysis of subcellular localization, and will help to improve prediction algorithms. An original method to accurately identify the cleavage sites of targeting peptides for organellar proteins has also been developed. The combination of experimentally determined subcellular location and identity of the mature LEA proteins is essential for the accurate design of corresponding recombinant proteins. Finally, examination of the relationship between the classification of LEA proteins, their gene expression, and their subcellular localization, enabled the development of novel hypotheses with respect to the putative functions of this important group of proteins
APA, Harvard, Vancouver, ISO, and other styles
23

Moine-Franel, Alexandra. "Cartographie des poches aux interfaces protéine-protéine et identification de nouvelles cibles thérapeutiques potentielles." Electronic Thesis or Diss., Sorbonne université, 2023. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2023SORUS634.pdf.

Full text
Abstract:
Les interactions protéine-protéine (IPP) représentent une source importante de potentielle cibles thérapeutiques car elles jouent un rôle crucial dans de nombreux et divers processus biologiques, notamment dans le développement de pathologies. Bien que les IPP apparaissent comme des cibles thérapeutiques prometteuses, elles demeurent plus difficiles à étudier que les cibles thérapeutiques conventionnelles. En effet, les IPP connues sont caractérisées par des motifs structuraux particuliers qui limitent leur potentiel « druggable » c’est-à-dire leur capacité à lier et être modulées par une petite molécule médicamenteuse. Cependant, le nombre croissant d’identification de petites molécules modulant diverses IPP démontre qu’avec une méthodologie adaptée, elles peuvent représenter une classe de nouvelles cibles thérapeutiques originales et innovantes. L’objectif est donc de développer un protocole in silico aidant à identifier de nouvelles cibles thérapeutiques impliquant des IPP en rationalisant les éléments clés qui conditionnent la « druggabilité » de leur interaction
Protein-protein interactions (PPIs) constitute a significant source of potential therapeutic targets because they play a crucial role in numerous and diverse biological processes, including the development of pathologies. While PPIs appear as promising therapeutic targets, they are more challenging to study than conventional therapeutic targets. Indeed, known PPIs are characterized by specific structural motifs that limit their ‘druggability’, meaning their ability to bind to and be modulated by a small drug molecule. However, the growing identification of small molecules modulating various PPIs demonstrates that, with an appropriate methodology, they can represent a class of novel and innovative therapeutic targets. The objective is, therefore, to develop an in silico protocol to aid in identifying new therapeutic targets involving PPIs by rationalizing the key elements that determine the ‘druggability’ of the interaction
APA, Harvard, Vancouver, ISO, and other styles
24

Albou, Laurent-Philippe. "Analyse intégrative des données structurales et reconnaissance de forme : application à la régulation de la transcription eucaryote." Strasbourg, 2010. https://publication-theses.unistra.fr/public/theses_doctorat/2010/ALBOU_Laurent-Philippe_2010.pdf.

Full text
Abstract:
En 5 ans, les projets internationaux de Biologie et Génomique Structurales ont doublé le nombre de structures moléculaires disponibles dans la Protein Data Bank. Au cours de cette thèse, j’ai développé des approches de Bioinformatique Structurale permettant l’analyse intégrative de ces données pour mieux décrire les mécanismes moléculaires d’interactions. Nous avons montré, qu’en moyenne, 44% de la surface protéique est impliquée dans des interactions avec des molécules autres que solvants et ions, et que, si près de 86% de la surface des protéines peut être hydratée transitoirement, seule 15% l’est de façon spécifique. En différenciant tous les types de sites de liaisons (protéine, ADN, ARN, ligand…) de chaque protéine, nous avons montré l’existence de recouvrements entre ces régions. Cette observation a conduit à la définition de deux grandes familles de sites de liaisons: des sites spécifiques, capables de ne lier d’un seul type de molécule, et des sites polyvalents, capables de lier au moins deux types différents de molécules. Les sites de liaisons spécifiques diffèrent grandement des sites de liaisons polyvalents, notamment en termes d’hydrophobicité. Les sites spécifiques pourraient être l’indicateur d’interactions fortes voir permanentes. L’analyse rapide et systématique des surfaces moléculaires a également requis le développement d’approches géométriques avancées, mettant en œuvre les formes alphas, pour permettre la construction de régions contiguës et la définition de courbures locales. Le criblage des régions contiguës, tout comme un blast mais pour la comparaison de régions 3D locales, ouvre la voie à de nombreuses applications biologiques et pharmaceutiques
In 5 years, international projects of Structural Biology and Structural Genomics have doubled the number of available molecular structures in the Protein Data Bank. During this thesis, I have developped Structural Bioinformatic approaches to perform the integrated analysis of structural data, to better describe the molecular mechanisms of interactions. We have shown that, on average, 44% of protein surfaces are involved in interactions with molecules other than solvants and ions. If 86% of protein surfaces can be transiently hydrated, only 15% can be specifically hydrated. By differentiating every type of binding sites (protein, DNA, RNA, ligand…) of each protein, we have shown the existence of overlaps between these regions. This observation has led us to define two major families of binding sites : specific sites, which can only bind one type of molecule, and polyvalent sites, which can bind at least two different types of molecule. The specific binding sites differ greatly from polyvalent ones, in particular in terms of hydrophobicity. Specific binding sites may indicate stronger or permanent interactions. The fast and systematic analysis of molecular surfaces has also required the development of advanced geometrical approaches, based on alpha shapes, to define contiguous regions and local curvatures. The screening of these contiguous regions, like a blast but for local 3D regions, open the way to numerous biological and pharmaceutical applications
APA, Harvard, Vancouver, ISO, and other styles
25

Pages, Guillaume. "Développements algorithmiques pour l'analyse et la prédiction de la structure des protéines." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM036.

Full text
Abstract:
Les protéines sont omniprésentes dans les processus biologiques. Identifier leurs fonctions aide à comprendre et éventuellement à contrôler ces processus. Cependant, si la détermination de la séquence protéique est désormais une procédure de routine, il est souvent difficile d'utiliser cette information pour extraire des connaissances fonctionnelles pertinentes sur le système étudié. En effet, la fonction d'une protéine repose sur ses propriétés chimiques et mécaniques, lesquelles sont définies par sa structure. Ainsi, la prédiction, la compréhension et l'analyse de la structure des protéines sont parmi les principaux défis de la biologie moléculaire.La prédiction et l'analyse des repliements de protéines est le sujet central de cette thèse. Cependant, de nombreuses protéines sont organisées selon des assemblages qui sont symétriques dans la plupart des cas et certaines protéines contiennent des répétitions internes. La conception d'une structure avec des répétitions ou d'un assemblage protéique symétrique est souvent le moyen le plus simple pour l'évolution d'atteindre une certaine fonction. Ceci qui nous a poussé à développer des méthodes spécialement conçues pour les assemblages protéiques symétriques et les protéines avec répétitions internes. Une autre motivation derrière cette thèse était d'explorer et de faire progresser le domaine émergent de l'apprentissage profond appliqué aux données atomistiques tridimensionnelle (3D).Cette thèse s'articule autour de deux parties. Dans la première partie, nous proposons des algorithmes pour analyser la structures des assemblages symétriques de protéines. Nous commençons par définir une mesure de symétrie basée sur la distance euclidienne 3D et décrivons un algorithme permettant de calculer efficacement cette mesure et de déterminer les axes de symétrie des assemblages protéiques. Cet algorithme est capable de traiter tous les groupes ponctuels de symétrie, à savoir les symétries cycliques, dièdrales, tétraédriques, octaédriques et icosaédriques, grâce à une heuristique robuste qui perçoit la correspondance entre sous-unités asymétriques. Nous étendons ensuite les limites du problème et proposons une méthode applicable à des cartes de densité 3D. Nous abordons ce problème à l'aide d'un réseau neuronal profond (DNN), et nous proposons une méthode qui prédit l'ordre de symétrie l'axe de symétrie 3D.Ensuite, nous proposons une architecture DNN pour évaluer la qualité de modèles 3D de repliements de protéines. Nous avons entrainé le DNN en utilisant en entrée la géométrie locale autour de chaque résidu dans un modèle de protéine représenté par une carte de densité, et avons prédit les CAD-scores de ces résidus. Le DNN a été créé pour être invariant par rapport à l'orientation du modèle d'entrée. Nous avons également conçu certaines parties du DNN pour reconnaître automatiquement les propriétés des atomes et sélectionner des descripteurs pertinents. Enfin, nous analysons les descripteurs appris par le DNN. Nous montrons que notre architecture apprend effectivement des propriétés des atomes, des acides aminés et des structures moléculaires de niveau supérieur. Certaines propriétés sont déjà bien étudiées comme les éléments chimiques, les charges partielles atomiques, les propriétés des acides aminés, la structure secondaire des protéines et l'exposition au solvant. Nous démontrons également que notre réseau apprend de nouvelles caractéristiques structurelles.Cette étude présente de nouveaux outils pour la biologie structurale. Certains sont déjà utilisés dans la communauté, par les évaluateurs de CASP par example. Elle démontre également la puissance de l'apprentissage profond pour la représentation de la structure des protéines et son applicabilité aux problèmes des données 3D
Proteins are ubiquitous for virtually all biological processes. Identifying their role helps to understand and potentially control these processes. However, even though protein sequence determination is now a routine procedure, it is often very difficult to use this information to extract relevant functional knowledge about system under study. Indeed, the function of a protein relies on a combination of its chemical and mechanical properties, which are defined by its structure. Thus, understanding, analysis and prediction of protein structure are the key challenges in molecular biology.Prediction and analysis of individual protein folds is the central topic of this thesis. However, many proteins are organized in higher-level assemblies, which are symmetric in most of the cases, and also some proteins contain internal repetitions.In many cases, designing a fold with repetitions or designing a symmetric protein assembly is the simplest way for evolution to achieve a specific function. This is because the number of combinatorial possibilities in the interactions of designed folds reduces exponentially in the symmetric cases. This motivated us to develop specific methods for symmetric protein assemblies and also for individual proteins with internal repeats. Another motivation behind this thesis was to explore and advance the emerging deep neural network field in application to atomistic 3-dimensional (3D) data.This thesis can be logically split into two parts. In the first part, we propose algorithms to analyse structures of protein assemblies, and more specifically putative structural symmetries.We start with a definition of a symmetry measure based on 3D Euclidean distance, and describe an algorithm to efficiently compute this measure, and to determine the axes of symmetry of protein assemblies. This algorithm is able to deal with all point groups, which include cyclic, dihedral, tetrahedral, octahedral and icosahedral symmetries, thanks to a robust heuristic that perceives correspondence between asymmetric subunits. We then extend the boundaries of the problem, and propose a method applicable to the atomistic structures without atom correspondence, internal symmetries, and repetitions in raw density maps. We tackle this problem using a deep neural network (DNN), and we propose a method that predicts the symmetry order and a 3D symmetry axis.Then, we extend the DNN architecture to recognise folding quality of 3D protein models. We trained the DNN using as input the local geometry around each residue in a protein model represented as a density map, and we predicted the CAD-scores of these residues. The DNN was specifically conceived to be invariant with respect to the orientation of the input model. We also designed some parts of the network to automatically recognise atom properties and robustly select features. Finally, we provide an analysis of the features learned by the DNN. We show that our architecture correctly learns atomic, amino acid, and also higher-level molecular descriptors. Some of them are rather complex, but well understood from the biophysical point of view. These include atom partial charges, atom chemical elements, properties of amino acids, protein secondary structure and atom solvent exposure. We also demonstrate that our network learns novel structural features.This study introduces novel tools for structural biology. Some of them are already used in the community, for example, by the PDBe database and CASP assessors. It also demonstrates the power of deep learning in the representation of protein structure and shows applicability of DNNs to computational tasks that involve 3D data
APA, Harvard, Vancouver, ISO, and other styles
26

Friedrich, Anne. "De la mutation structurale aux phénotypes des pathologies animales : vers une approche intégrative des mutations et de leurs conséquences." Université Louis Pasteur (Strasbourg) (1971-2008), 2007. https://publication-theses.unistra.fr/public/theses_doctorat/2007/FRIEDRICH_Anne_2007.pdf.

Full text
Abstract:
Le travail présenté dans cette thèse concerne l’étude, par des approches bioinformatiques à haut débit, des relations qui lient le phénotype d’un individu à son génotype, dans le cadre du projet MS2PH (« de la Mutation Structurale aux Phénotypes des Pathologies Humaines »). Nous nous sommes tout d’abord concentrés sur la caractérisation des mutations dans un contexte évolutif et avons développé une stratégie optimale de construction d’alignements multiples de séquences protéiques dédiés aux analyses structurales. Puis, la caractérisation des mutations dans un contexte fonctionnel et structural a été abordée en déployant un serveur Web, MAGOS, réunissant les informations de séquence, structure, fonction et évolution relatives à une protéine d’intérêt. Enfin, nous nous sommes appuyés sur les capacités intégratives de MAGOS, ainsi que sur la puissance de la grille de calcul universitaire Décrypthon (www. Decrypthon. Fr) pour développer MS2PH-db, une banque de données dédiée aux protéines impliquées dans les maladies monogéniques humaines, qui intègre de plus des données « cliniques » (mutations et phénotypes associés). Les règles d’association de base entre séquence, mutations, impacts structuraux et phénotypes cliniques associés sont finalement discutées, en se basant sur l’étude de deux protéines dont la relation génotype/phénotype est en partie élucidée. Ces études ouvrent la voie vers la mise en place d’un système générique de prédiction du lien entre mutation et phénotype clinique
This thesis work focuses on high throughput applications of bioinformatics methodologies to study genotype/phenotype correlations in the context of the MS2PH project (“from Structural Mutation to Human Pathologies Phenotypes”). In an initial step, we concentrated on the characterization of mutations in an evolutionary context and we have developed an optimal strategy for the construction of multiple alignments of protein sequences dedicated to structural analysis. Next, the characterization of the mutations in a functional and structural context was addressed by the development of MAGOS, a Web server which allows the coupling of the sequence, structural, functional and evolutionary information related to a given protein of interest. Finally, we exploited the integrative capabilities of MAGOS, as well as the power of the Decrypthon computation grid (www. Decrypthon. Fr) to develop MS2PH-db, a database dedicated to proteins involved in human monogenic diseases, which also integrates clinical data (mutations and associated phenotypes). In the final section, the basic associative rules between sequence, mutation, structural impact and clinical phenotypes are discussed, illustrated by the analysis of two well-studied proteins for which the genotype/phenotype correlations are partially elucidated. These studies open up the way to the development of a system dedicated to the prediction of the link between mutations and clinical phenotypes
APA, Harvard, Vancouver, ISO, and other styles
27

Beinsteiner, Brice. "Origine et évolution des récepteurs nucléaires et étude structurale du premier stéroïdien, ERR." Thesis, Strasbourg, 2018. http://www.theses.fr/2018STRAJ099.

Full text
Abstract:
Les récepteurs nucléaires (RNs) sont des facteurs de transcriptions se liant à des séquences spécifiques d'ADN et activant la transcription de gènes en réponse à la fixation de ligands spécifiques. Parmi tous les RNs impliquées dans l'étiologie des cancers, les récepteurs liés aux œstrogènes ERR jouent un rôle important dans les cancers du sein, de l'ovaire, du colon, de l’endomètre et la prostate. Ce RN est dit orphelin car il ne possède pas de ligand naturel connu à ce jour. Par une approche de biologie structurale intégrative combinant cryo-microscopie électronique, bioinformatique et évolution, mon travail de thèse s'est focalisé sur l'étude structurale de ERR et sur l'origine et l'évolution des RNs. Dans ce contexte, 3 outils informatiques ont été développés. Les résultats obtenus ont permis d'une part la révision des connaissances fondamentales sur l'origine des récepteurs nucléaires et leur évolution. D'autre part, l'étude structurale de ERR a permis d'acquérir de nouvelles données sur la topologie des récepteurs nucléaires stéroidiens fixés sur un élément de réponse ERRE/ERE ainsi que sur le mécanisme allostérique de la liaison du coactivateur PGC-1α sur le dimère de ERR. La résolution du complexe à l'échelle atomique par cryo-microscopie électronique permettra d'ouvrir la voie vers la conception de nouvelles molécules thérapeutiques
Nuclear receptors (NRs) are transcription factors which bind to specific DNA sequences and activate gene transcription in response to the binding of specific ligands. Among all of the RNs involved in the etiology of cancers, ERR estrogen receptors play an important role in breast, ovarian, colon, endometrial and prostate cancers. This NR is said to be orphan because it does not have a natural ligand known to date. Using an integrative structural biology approach combining cryo-electron microscopy, bioinformatics and evolution, my PhD work focused on the structural study of ERR and the origin and evolution of RNs. In this context, three informatic tools have been developed. The results obtained allowed, on the one hand, the revision of fundamental knowledge on the origin of nuclear receptors and their evolution. On the other hand, structural study of ERR allow us to acquire new data on topology of steroid nuclear receptors fixed on an element of ERRE / ERE response as well as on the allosteric mechanism of the binding of the coactivator PGC-1α on the dimer of ERR. The resolution of the complex at the atomic scale by cryo-electron microscopy will open the way towards the design of new therapeutic molecules
APA, Harvard, Vancouver, ISO, and other styles
28

Flutre, Timothée. "L'annotation des éléments transposables par la compréhension de leur diversification." Phd thesis, Université Paris-Diderot - Paris VII, 2010. http://tel.archives-ouvertes.fr/tel-00560242.

Full text
Abstract:
Tout organisme vivant est le produit d'interactions complexes entre son génome et son environnement, interactions caractérisées par des échanges de matière et d'énergie indispensables à la survie de l'organisme et la transmission de son génome. Depuis la découverte dans les années 1910 que le chromosome est le support de l'information génétique, les biologistes étudient les génomes afin de décrypter les mécanismes et processus à l'oeuvre dans le développement des organismes et l'évolution des populations. Grâce aux améliorations technologiques des dernières décennies, plusieurs génomes ont été entièrement séquencés, leur nombre s'accroissant rapidement, mais ils sont loin d'être décryptés pour autant. En effet, certains de leurs composants, les éléments transposables, sont encore mal compris, bien qu'ils aient été détectés chez quasiment toutes les espèces étudiées, et qu'ils puissent représenter jusqu'à 90% du contenu total de leurs génomes. Les éléments transposables sont des fragments du génome possédant la particularité d'être mobiles. Ils ont donc un impact majeur sur la structure des génomes mais également sur l'expression des gènes avoisinants, notamment via des mécanismes épigénétiques. Leur évolution est aussi particulière étant donné qu'ils ont une transmission verticale non-mendélienne et que de nombreux cas de transferts horizontaux ont été mis en évidence. Mais, à part dans le cas de certains organismes modèles pour lesquels nous disposons de séquences de référence, l'annotation des éléments transposables représente souvent un goulot d'étranglement dans l'analyse des séquences génomiques. A cela s'ajoute le fait que les études de génomique comparée montrent que les génomes sont bien plus dynamiques qu'on ne le croyait, en particulier ceux des plantes, ce qui complique d'autant l'annotation précise des éléments transposables. Pendant mes travaux de thèse, j'ai commencé par comparer les programmes informatiques existants utilisés dans les approches d'annotation de novo des éléments transposables. Pour cela, j'ai mis au point un protocole de test sur les génomes de Drosophila melanogaster et Arabidopsis thaliana. Ceci m'a permis de proposer une approche de novo combinant plusieurs outils, capable ainsi de reconstruire automatiquement un grand nombre de séquences de référence. De plus, j'ai pu montrer que notre approche mettait en évidence les variations structurales au sein de familles bien connues, notamment en distinguant des variants structuraux appartenant à une même famille d'éléments transposables, reflétant ainsi la diversification de ces familles au cours de leur évolution. Cette approche a été implémentée dans une suite d'outils (REPET) rendant possible l'analyse des éléments transposables de nombreux génomes de plantes, insectes, champignons et autres. Ces travaux ont abouti à une feuille de route décrivant de manière pratique comment annoter le contenu en éléments transposables de tout génome nouvellement séquencé. Par conséquent, de nombreuses questions concernant l'impact de ces éléments sur l'évolution de la structure des génomes peuvent maintenant être abordées chez différents génomes plus ou moins proches. Je propose également plusieurs pistes de recherche, notamment la simulation des données nécessaires à l'amélioration des algorithmes de détection, démarche complémentaire de la modélisation de la dynamique des éléments transposables.
APA, Harvard, Vancouver, ISO, and other styles
29

Ferrario, Maria Giovanna. "On the recognition of ecdysteroids by the ecdysone receptor : a computational study." Strasbourg, 2010. https://publication-theses.unistra.fr/restreint/theses_doctorat/2010/FERRARIO_Maria_Giovanna_2010.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Gelly, Jean-Christophe. "Système d'information et outils de prédiction structurale spécifiques de classes de protéines : Base de données KNOTTIN et matrices de substitution EvDTree dépendantes de la structure." Montpellier 2, 2004. http://www.theses.fr/2004MON20026.

Full text
APA, Harvard, Vancouver, ISO, and other styles
31

Trinh, Minh Hieu. "Modélisation de l'assemblage de protéines multi-domaines avec des contraintes expérimentales de microscopie à force atomique." Thesis, Montpellier 2, 2010. http://www.theses.fr/2010MON20076/document.

Full text
Abstract:
Un des principaux défis du domaine de la biologie structurale est l'obtention d'informations à haute résolution sur les grandes macromolécules biologiques. En raison de leurs tailles et de leurs flexibilités, les techniques traditionnelles de biologie structurales sont souvent impuissantes. Une des techniques prometteuses est la microscopie à force atomique (AFM). Contrairement à la microscopie optique, l'AFM utilise une sonde mécanique de très faible taille (<10 nm) pour obtenir des informations topographiques sur du matériel biologique isolé et déposé sur des surfaces ultras plates. L'objectif du travail de thèse est de développer les outils informatiques pour permettre la modélisation de grandes macromolécules au niveau atomique tout en intégrant des contraintes topologiques obtenues par l'imagerie AFM. À partir d'images AFM de hauteur, à haute résolution, un protocole d'assemblage de domaines protéiques a été mis au point. Il utilise une recherche exhaustive dans l'espace tridimensionnel réel de toutes les orientations possibles des domaines de la macromolécule à modéliser qui respectent les contours imposés par l'image AFM. Un jeu de contraintes de distance entre chacun des domaines permet un premier tri des modèles candidats. Un classement final est attribué à chaque modèle selon un score appelé EFactor, estimateur de la ressemblance entre la surface topographique expérimentale et celle du modèle. Le protocole a été validé sur le système modèle que sont les anticorps. Il a été également utilisé pour reconstruire une particule virale (virus de la mosaïque du tabac) et assembler la structure tétramérique de la protéine membranaire l'aquaporine Z
A major challenge in the field of structural biology is to obtain high-resolution information on the major biological macromolecules. Because of their size and their flexibility, the traditional techniques of structural biology are often powerless. One of the promising techniques is atomic force microscopy (AFM). Unlike optical microscopy, AFM uses a mechanical probe of very small size (<10 nm) to obtain topographical information on isolated biological material deposited on ultra flat surfaces. The aim of the thesis was to develop tools to enable the modeling of large macromolecules at the atomic level while incorporating topological constraints obtained by AFM imaging. Using high resolution AFM height images, a protocol for assembling protein domains has been developed. It uses an exhaustive search in real three-dimensional space of all possible orientations of the macromolecule's domains respecting the boundaries imposed by the AFM topographical image. A set of distance constraints between each of the domains allows an initial screening of candidate models. A final ranking is assigned to each model according to a score called EFactor, estimator of the similarity between the experimental topography and the model. The protocol was validated on model systems that are antibodies. It was also used to reconstruct a virus particle (tobacco mosaic virus) and assemble the tetrameric structure of the membrane protein aquaporin Z
APA, Harvard, Vancouver, ISO, and other styles
32

Friedrich, Anne Poch Olivier. "De la mutation structurale aux phénotypes des pathologies animales vers une approche intégrative des mutations et de leurs conséquences /." Strasbourg : Université Louis Pasteur, 2007. http://eprints-scd-ulp.u-strasbg.fr:8080/898/01/FRIEDRICH_Anne_2007.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
33

Desaphy, Jérémy. "L'analyse structurale de complexes protéine/ligand et ses applications en chémogénomique." Phd thesis, Université de Strasbourg, 2013. http://tel.archives-ouvertes.fr/tel-00997394.

Full text
Abstract:
Comprendre les interactions réalisées entre un candidat médicament et sa protéine cible est un enjeu crucial pour orienter la recherche de nouvelles molécules. En effet, ce processus implique de nombreux paramètres qu'il est nécessaire d'analyser séparément pour mieux comprendre leurs effets.Nous proposons ici deux nouvelles approches observant les relations protéine/ligand. La première se concentre sur la comparaison de cavités formées par les sites de liaison pouvant accueillir une molécule. Cette méthode permet d'inférer la fonction d'une protéine mais surtout de prédire " l'accessibilité " d'un site de liaison pour un médicament. La seconde tactique se focalise sur la comparaison des interactions non-covalentes réalisées entre la protéine et le ligand afin d'améliorer la sélection de molécules potentiellement actives lors de criblages virtuels, et de rechercher de nouveaux fragments moléculaires, structuralement différents mais partageant le même mode d'interaction.
APA, Harvard, Vancouver, ISO, and other styles
34

Galiez, Clovis. "Fragments structuraux : comparaison, prédictibilité à partir de la séquence et application à l'identification de protéines de virus." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S124/document.

Full text
Abstract:
Cette thèse propose de nouveaux outils pour la caractérisation locale de familles de protéines au niveau de la séquence et de la structure. Nous introduisons les fragments en contact (CF) comme des portions de structure conciliant localité spatiale et voisinage séquentiel. Nous montrons qu'ils bénéficient d'une meilleure prédictibilité de structure depuis la séquence que des fragments contigus ou encore que des paires de fragments qui ne seraient pas en contact en structure. Pour comparer structuralement ces CF, nous introduisons l'ASD, une nouvelle mesure de similarité ne nécessitant pas d'alignement préalable, respectant l'inégalité triangulaire tout en étant tolérante aux décalages de séquences et aux indels. Nous montrons notamment que l'ASD offre des meilleures performances que les scores classiques de comparaison de fragments sur des tâches concrètes de classification non-supervisée et de fouille structurale. Enfin, grâce à des techniques d'apprentissage automatique, nous mettrons en œuvre la détection de CF à partir de la séquence pour l'identification de protéines de virus avec l'outil VIRALpro développé au cours de cette thèse
This thesis investigates the local characterization of protein families at both structural and sequential level. We introduce contact fragments (CF) as parts of protein structure that conciliate spatial locality together with sequential neighborhood. We show that the predictability of CF from the sequence is better than that of contiguous fragments and of structurally distant pairs of fragments. In order to structurally compare CF, we introduce ASD, a novel alignment-free dissimilarity measure that respects triangular inequality while being tolerant to sequence shifts and indels. We show that ASD outperforms classical scores for fragment comparison on practical experiments such that unsupervised classification and structural mining. Ultimately, by integrating the identification of CF from the sequence into a statistical machine learning framework, we developed VIRALpro, a tool that enables the detection of sequences of viral structural proteins
APA, Harvard, Vancouver, ISO, and other styles
35

Lindenbaum, Pierre. "Roxan, une nouvelle proteine cellulaire interagissant avec la proteine non-structurale nsp3 du rotavirus : clonelt* : un programme en ligne trouvant des strategies de clonage (doctorat : microbiologie)." Paris 11, 2000. http://www.theses.fr/2000PA114811.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Mahmoudi, Ikram. "Structural and evolutionary analysis of protein-RNA interfaces and prediction perspectives." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASQ024.

Full text
Abstract:
Les interactions protéine-ARN sont cruciales dans de nombreuses voies cellulaires et pathologiques. La connaissance de leurs structures 3D est essentielle pour comprendre leurs fonctions, mais leur détermination expérimentale reste difficile. Le manque de données structurales et la flexibilité de ces complexes ont entravé la prédiction structurale des interfaces protéine-ARN. En parallèle, la prédiction des interactions protéine-protéine a connu d'énormes progrès récents grâce aux informations évolutives et à l'apprentissage profond.Ma thèse s'est concentrée sur une analyse évolutive détaillée des structures d'interfaces protéine-ARN. J'ai d'abord identifié 2 022 paires d'interfaces structuralement homologues. J'ai étudié la conservation des contacts d'interface au sein de ces paires, identifiant une conservation élevée des contacts de proximité et apolaires, même dans des homologues lointains. Les liaisons hydrogène, les ponts salins et les interactions π-stacking sont plus versatiles. J'ai étudié les mécanismes de compensation des interactions non conservées. J'ai contribué au développement d'une interface web permettant à la communauté d'explorer nos données structurales et évolutives. J'ai également participé à un projet collaboratif avec des biologistes pour un cas d'étude d'interface protéine-ARN.Ensuite, j'ai étudié comment incorporer des signaux évolutifs dans les méthodes de modélisation structurale protéine-ARN en utilisant des modèles d'apprentissage automatique, notamment la régression logistique et les classificateurs CatBoost. J'ai évalué la capacité de ces modèles à apprendre comment transférer des contacts à partir d'interologues lointains et à généraliser en évitant le surapprentissage. Enfin, j'ai exploré le développement de fonctions basées sur les propensions de contact pour évaluer les poses d'amarrage protéine-ARN. Ces travaux constituent une étape vers l'amélioration de la prédiction de la structure protéine-ARN
Protein-RNA interactions are crucial in numerous cellular pathways and pathologies. Knowledge of their 3D structures is critical for understanding their functions, yet their experimental determination remains challenging. The scarcity of structural data and the inherent flexibility of these complexes have hindered the advancement of protein-RNA interface structural prediction. At the same time, tremendous progress has been made recently for protein-protein interaction prediction thanks to methods leveraging evolutionary information and deep learning.My thesis focused on a detailed evolutionary analysis of protein-RNA interface structures. I first identified 2,022 pairs of structurally homologous interfaces. I explored the conservation of interface contacts among these pairs, discovering a high conservation rate for distance-based and apolar contacts, even in distant homologs. Hydrogen bonds, salt bridges, and π-stacking interactions displayed higher versatility. I investigated mechanisms compensating for non-conserved interactions. I contributed to developing a web interface allowing the community to explore evolutionary structural insights in our datasets. I also participated in a collaborative project with biologists to study a specific protein-RNA interface.Then, I investigated how to incorporate evolutionary signals into protein-RNA structural modeling methods using machine learning models, including logistic regression and CatBoost classifiers. I assessed these models' ability to learn how to transfer contacts from remote interologs and generalize across datasets while mitigating overfitting. Lastly, I explored developing functions based on contact propensities to score protein-RNA docking poses. These efforts constitute a step towards improving protein-RNA structure prediction
APA, Harvard, Vancouver, ISO, and other styles
37

Devillé, Julie. "Etude structurale des cassures d'hélices et son application à la modélisation des récepteurs couplés aux protéines G (RCPG)." Phd thesis, Université d'Angers, 2007. http://tel.archives-ouvertes.fr/tel-00346950.

Full text
Abstract:
Nos récepteurs d'intérêt, les récepteurs à l'angiotensine AT1 et AT2, appartiennent à la classe A de la grande famille des récepteurs couplés aux protéines G (RCPG). Jusqu'à très récemment, la rhodopsine bovine était le seul RCPG dont la structure cristallographique était résolue. La structure de la rhodopsine est employée couramment comme modèle en modélisation par homologie des RCPG de classe A. La structure de la rhodopsine est constituée de sept hélices transmembranaires. La plupart de ces hélices ne sont pas droites, mais cassées ou incurvées. Pour comprendre quels sont les motifs structuraux possibles pour les cassures d'hélices, nous avons réalisé une étude exhaustive des motifs d'hélices cassées au niveau d'un seul résidu de jonction (motif HXH) grâce à une base de données de structures d'hélices cassées développée localement. Les résultats montrent que le résidu de jonction n'admet qu'un nombre limité de conformations conduisant à la classification de ces cassures en six motifs bien distincts. Un de ces motifs correspond à une cassure au niveau d'un renflement. Ce motif se retrouve dans l'hélice transmembranaire 2 (TMH2) de la rhodopsine où une cassure se fait au niveau d'un motif GG correspondant à un renflement p. Ce motif GG, situé aux positions 2.56-2.57, n'est pas conservé parmi les RCPG mais une proline est fréquemment observée aux positions 2.58, 2.59 ou 2.60. Nos récepteurs d'intérêt AT1 et AT2 possèdent une proline à la position 2.58. L'étude de l'évolution de l'hélice transmembranaire 2 au sein de la famille des RCPG suggère fortement que la position en 2.58 correspond à une délétion d'un résidu au niveau de la cassure. Ceci est confirmé par des analyses structurales de la Protein Data bank. Ces résultats indiquent que la structure de la rhodopsine peut être utilisée directement pour modéliser l'hélice 2 lorsque la proline est en position 2.59 ou 2.60 (renflement p)/ Lorsque la proline est en position 2.58, la rhodopsine peut aussi être utilisée comme modèle structural à condition de prendre en compte la délétion d'un résidu au niveau du renflement, pour obtenir une cassure proline en coude classique.
APA, Harvard, Vancouver, ISO, and other styles
38

Velusamy, Mahesh. "New computational approaches for investigating the impact of mutations on the transglucosylation activity of sucrose phosphorylase enzyme." Thesis, La Réunion, 2018. http://www.theses.fr/2018LARE0045.

Full text
Abstract:
Comprendre comment les mutations impactent l’activité d’une protéine reste un défi dans le domaine des sciences protéiques. Les méthodes biochimiques traditionnellement utilisées pour résoudre ce type de questionnement sont très puissantes mais sont laborieuses à mettre en œuvre. Des approches bioinformatiques ont été développées à cet égard pour surmonter ces contraintes. Dans cette thèse, nous explorons l'utilisation d'approches bioinformatiques pour comprendre le lien entre mutations et changements d'activité. Notre modèle d'étude est une enzyme bactérienne, la sucrose phosphorylase de Bifidobacterium adolescentis (BaSP). Cette glycosyl-hydrolase de la famille 13 (GH13) suscite l’intérêt de l'industrie en raison de sa capacité à synthétiser des disaccharides et des glycoconjugués originaux. Son activité consiste à transférer un glucose d'un donneur, le saccharose, à un accepteur qui peut être un monosaccharide ou un aglycone hydroxylé. La réaction enzymatique se déroule selon un mécanisme dit « double déplacement avec rétention de configuration », ce qui nécessite la formation d'un intermédiaire covalent dit glucosyl-enzyme. Cependant, la possibilité de contrôler la régiosélectivité de ce transfert pour qu'il soit applicable au niveau industriel est un enjeumajeur. Cette thèse vise d’une part, à fournir une explication rationnelle quant aux modifications de la régiosélectivité de BaSP apportées par des mutations et d’autre part à proposer un canevas pour le contrôle de la régiosélectivité de couplage en vue de la synthèse de disaccharides pré-biotiques rares comme le kojibiose et le nigerose. Dans notre approche, nous avons émis l'hypothèse que les orientations préférées de l'accepteur dans le site catalytique après formation du glycosyl-enzyme déterminent la régiosélectivité de l'enzyme. Nous avons utilisé des approches computationnelles pour étudier l'impact des mutations sur la liaison de l'accepteur à l'intermédiaire covalent, le glucosylenzyme. À cette fin, nous avons construit des modèles à l’échelle atomique du glucosyl-enzyme pour un ensemble de variants de la BaSP pour lesquels des données expérimentales étaient disponibles. Pour y parvenir, nous avons paramétré le glucosyl-aspartyle en tant que nouveau résidu et les avons intégré dans des outils de modélisation tels que Modeller et Gromacs. Nous avons évalué la pertinence de ces paramètres et les avons ensuite appliqués à la vérification de notre hypothèse de travail par le biais d’expériences d'ancrage moléculaire. La méthodologie utilisée dans ce travail ouvre la perspective de l'utilisation d'approches bioinformatiques pour l'ingénierie de la régiosélectivité de la sucrose phosphorylase et plus généralement des glycosylhydrolases possédant un mécanisme similaire. À cet égard, un pipeline de modélisation moléculaire et d'amarrage de molécules accepteurs sur des intermédiaires covalents des enzymes de cette famille (ENZO pour Optimisation d’ENZyme) a été développé au cours de cette thèse. Son application à l’ingénierie d’autres variants de BaSP est en cours
In this thesis, we explore the usage of computational approaches for understanding the link between mutations and changes in protein activity. Our study model is a bacterial sucrose phosphorylase enzyme from Bifidobacterium adolescentis (BaSP). This glycosyl hydrolase from family 13 (GH13) has been a focus in the industry due to its ability to synthesize original disaccharides and glycoconjugates. In fact, its activity is to transfer a glucose moiety from a donor sucrose to an acceptor which can be a monosaccharide or a hydroxylated aglycone. The enzymatic reaction proceeds by a double displacement with retention of configuration mechanism whereby a covalent glucosyl-enzyme intermediate is formed. However, it is at stake to control the regioselectivity of this transfer for it to be applicable at industrial level. This thesis aimed at providing a rational explanation for the observed impact of mutations on the regioselectivity of BaSP in view of controlling the synthesis of rare pre-biotic disaccharides like kojibiose and nigerose. We hypothesized that the preferred orientations of the acceptor determines the regioselectivity of the enzyme. In that respect, we used computational approaches to investigate the impact of mutations on the binding of the acceptor to the glucosyl-enzyme intermediate. The methodology used in this work opens the perspective of using computational approaches for engineering the regioselectivity of of glycosyl hydrolases with similar mechanism
APA, Harvard, Vancouver, ISO, and other styles
39

Schwarz, Benjamin. "Application de la théorie des formes alpha pour la caractérisation de la surface et des poches de macromolécules biologiques." Strasbourg, 2009. http://www.theses.fr/2009STRA6196.

Full text
Abstract:
Notre travail s'inscrit dans le cadre le la bioinformatique structurale, et plus spécifiquement à l'interface entre biologie structurale et géométrie algorithmique, dont nous empruntons les constructions issues de la théorie des formes alphas pour représenter et étudier les molécules. L'objectif global de notre travail est de proposer de nouveaux outils théoriques et pratiques destinés à favoriser l'étude de la relation structure-fonction des macromolécules biologiques; et nous nous intéressons plus particulièrement à caractériser les lieux d'une intéraction possible à la surface de ces molécules. Dans le cadre de cette étude nous proposons un nouveau modèle, la surface duale, un encodage variété de la combinatoire de la surface accessible qui favorise le parcours de cette dernière et permettant notamment de constituer des voisinages d'atomes à la surface de la molécule. Nous avons utilisé ce modèle dans l'ensemble de nos travaux, qui peuvent être décomposés selon trois axes : (a) une caractérisation topographique de la surface moléculaire au travers d'une mesure d'incurvation permettant d'y définir des zones protrudentes et des zones anfractuées, (b) la définition de propriétés utilisables dans le cadre d'une caractérisation et d'une prédiction des surfaces d'interaction entre protéines, (c) la détection et la caractérisation des poches, crevasses et cavités dans les macromolécules biologiques. Nos travaux ont été mis en pratiques dans deux logiciels mis à disposition de la communauté scientifique : LC et Pck, respectivement pour la description topographique de la surface moléculaire et pour la détection et la caractérisation des poches dans les macromolécules biologiques
Our study is concerned with structural bioinfomatics (aka computational biology), more specifically, we borrow models from the alpha-shape theory to represent and study molecules. Roughly, our aim is to provide new theoretical and practical tools to ease the study of structure-function relationship in biological molecules. We are more specifically interested in characterising the usual locations of a possible interaction at the surface of such molecules. In this context we propose a novel model, the dual surface, that constitutes a manifold polyhedral surface encoding the Accessible surface. This construction eases the the construction of continuous surface tracks at the surface of a molecule, and therefore allows notably, the construction of molecular surface patches. We adapted this model mainly to address three distinct problems : (a) the proposal of a novel index to describe the molecular surface landscape in terms of knobs and clefts, (b) the definition of surface descriptors that can be used to study interacting patches on a protein surface, (c) the detection and characterisation of cavities, pockets, clefts and crevices at the surface of macromolecules. Two software tools were developped based on these works and are now freely accessible to the scientific community : LC and Pck, respectively dedicated to the description of the molecular surface topography, and to the detection and characterisation of pockets in molecular structures
APA, Harvard, Vancouver, ISO, and other styles
40

Legendre, Audrey. "Prédiction de structures secondaires d’ARN et de complexes d’ARN avec pseudonoeuds - Approches basées sur la programmation mathématique multi-objectif." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLE031.

Full text
Abstract:
Dans cette thèse, nous proposons de nouveaux algorithmes et outils pour la prédiction de structures secondaires d'ARN et de complexes d'ARN, incluant des motifs particuliers, difficiles à prédire, comme les pseudonœuds. La prédiction de structures d'ARN reste une tâche difficile, et les outils existants, pourtant nombreux, ne donnent pas toujours de bonnes prédictions.Afin de prédire plus précisément ces structures, nous proposons ici des algorithmes qui : i) prédisent les k-meilleures structures; ii) combinent plusieurs modèles de prédiction, afin de bénéficier des avantages de chacun; iii) sont capables de prendre en compte des contraintes utilisateurs et des données biologiques structurales telles que le SHAPE.Nous avons développé trois outils: BiokoP pour la prédiction de structures secondaires d'un ARN, et RCPred et C-RCPred pour la prédiction de structures secondaires de complexes d'ARN. L'outil BiokoP propose plusieurs structures optimales et sous-optimales grâce à la combinaison de deux modèles de prédiction, le modèle énergétique MFE et le modèle probabiliste MEA. Cette combinaison est réalisée grâce à la programmation mathématique multi-objectif, où chaque modèle est assimilé à une fonction objectif. À cet effet, nous avons développé un algorithme générique retournant les k-meilleures courbes de Pareto d'un programme linéaire en nombres entiers bi-objectif.L'outil RCPred, basé sur le modèle MFE, propose plusieurs structures sous-optimales. Il tire parti des nombreux outils existants pour la prédiction de structures secondaires d'ARN seuls et d'interactions ARN-ARN, en prenant en compte des structures secondaires et interactions déjà prédites en entrée. L'objectif de RCPred est de trouver les meilleures combinaisons possibles parmi ces entrées.L'outil C-RCPred est une nouvelle version de RCPred, prenant en compte des contraintes utilisateurs et des données biologiques structurales (SHAPE, PARS et DMS). C-RCPred est basé sur un algorithme multi-objectif, où les différents objectifs correspondent au modèle MFE, au respect des contraintes utilisateurs et à l'accord avec les données biologiques structurales
In this thesis, we propose new algorithms and tools to predict RNA and RNA complex secondary structures, including particular RNA motifs, difficult to predict, like pseudoknots. RNA structure prediction stays a difficult task, and the numerous existing tools don't always give good predictions.In order to predict structures that are as close as possible to the real ones, we propose to develop algorithms that: i) predict the k-best structures; ii) combine several models of prediction to take advantage of each; iii) are able to take into account user constraints and structural data like SHAPE.We developed three tools: BiokoP for predicting RNA secondary structures and RCPred and C-RCPred for predicting RNA complex secondary structures.The tool BiokoP proposes several optimal and sub-optimal structures thanks to the combination oftwo prediction models, the energy model MFE and the probabilistic model MEA. This combination isdone with multi-objective mathematical programming, where each model is associated to an objective function. To this end, we developed a generic algorithm returning the k-best Pareto curves of a bi-objective integer linear program.The tool RCPred, based on the MFE model, proposes several sub-optimal structures. It takes advantage of the numerous existing tools for RNA secondary structure prediction and for RNA-RNA interaction prediction, by taking as input predicted secondary structures and RNA-RNA interactions. The goal of RCPred is to find the best combination among these inputs.The tool C-RCPred is a new version of RCPred, taking into account user constraints and structural data(SHAPE, PARS, DMS). C-RCPred is based on a multi-objective algorithm, where the different objectives are the MFE model, the fulfillment of the user constraints and the concordance with the structural data
APA, Harvard, Vancouver, ISO, and other styles
41

Machat, Mohamed. "Computational geometry for the determination of biomolecular structures." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066359/document.

Full text
Abstract:
En bioinformatique structurale, une partie des méthodes computationnelles qui calculent les structures de protéines à l'aide de données expérimentales, effectuent une optimisation de la position des atomes sous les contraintes expérimentales mesurées sur le système étudié, ainsi que sous des contraintes provenant de la connaissance générique de la stéréochimie organique. Ces méthodes d'optimisation présentent l'inconvénient de ne pas garantir la détermination de la meilleure solution. De plus, la validation de l'optimisation se fait en comparant les résultats obtenus pour des calculs répétés, et le résultat d'un calcul est accepté dans la mesure où le même résultat est obtenu plusieurs fois. Par cette approche, on rend plus difficile la détection de conformations alternatives de protéines, qui sont pourtant le sujet d'un vif intérêt dans la littérature. En effet, le développement de la sensibilité des techniques de résonance magnétique nucléaire (RMN) a permis de mettre en évidence plusieurs cas d'échange conformationnel reliés à la fonction des protéines. Dans ce projet de thèse, nous avons étudié une nouvelle approche pour le calcul de structures des protéines et l'exploration de leurs espaces conformationnels, basée sur la résolution du problème de Géométrie de Distance associé aux contraintes de distances dans une protéine par l'algorithme "interval Branch and Prune". Le logiciel implémentant cette méthode est appelée iBPprot, il incarne l'une des premières tentatives d'échantillonnage exhaustive des espaces conformationnels des protéines. Dans un premier temps, on s'est intéressé à l'application de la méthode en utilisant exclusivement des constraintes de distances exactes. Les résultats ont démontré que iBPprot était capable de reconstruire des structures références en s'appuyant seulement sur quelques contraintes à courte portée. De plus, la reconstruction a été d'une précision telle que la conformation générée présentait un RMSD de 1 Angstrom maximum avec la structure référence. L'exploration exhaustive de l'espace conformationnel a été possible pour une bonne partie des protéines cibles. Les temps de calcul pour l'exploration des espaces conformationnels ont été très variables allant de quelques secondes pour quelques protéines jusqu'à des semaines pour d'autres. L'évaluation de la qualité des structures obtenues a démontré qu'au moins 68% des valeurs de phi et psi sont localisées dans la zone 'core' du diagramme de Ramachandran. Cependant, des clash stériques ont été détectées dans plusieurs conformations mettant en jeu jusqu'à 7% d'atomes dans quelques unes de ces conformations. Dans un deuxième temps, on s'est intéressé à l'application de la méthode en incluant des intervalles de distances comme contraintes dans les calculs. Dans ce cas de figure, la méthode a réussi a reconstruire des structures références avec un RMSD inférieur à 5 Angstrom pour plus de la moitié des protéines cibles. En contre partie, le parcours complet de l'espace conformationnel n'a été possible que pour la plus petite protéine de l'ensemble des protéines étudiées. Pour la moitié des autres protéines, plus de 70% des atomes ont vu leurs positions échantillonnées. La qualité des structures obtenues a regressé en comparaison avec les simulations faites avec des distances exactes. En effet, seulement 53% des valeurs de phi et psi étaient localisées dans la zone 'core' du diagramme de Ramachandran, et le pourcentage d'atomes impliqués dans un clash stérique s'élevait jusqu'à 22% pour quelques protéines. Concernant le temps de calcul, le taux de génération de conformations a été déterminé pour chaque protéine cible, et il s'est avéré que globalement sa valeur etait compétitive par rapport aux valeurs des taux observables dans la littérature
Structural biology has allowed us expand our knowledge of living organisms. It is defined as the investigation of the structure and function of biological systems at the molecular level. Studying a biomolecule's structure offers insight into its geometry, as angles and distances between the biomolecule's atoms are measured in order to determine the biomolecular structure. The values of these geometrical parameters may be obtained from biophysical techniques, such as X-ray crystallography or nuclear magnetic resonance (NMR) spectroscopy. One of the most used methods to calculate protein structures from geometric restraints is simulated annealing. This method does not guarantee an exhaustive sampling of protein conformational space, which is a shortcoming as one protein may adopt multiple functional conformations, and it is important to determine them exhaustively. In this PhD project, the efficiency of a new method - derived from operations research and computational geometry - is studied in order to answer this question: How does this method explore the conformational spaces of small proteins? This method - implemented within the iBPprot software framework - treats protein structure determination as a distance geometry problem, which the interval branch-and-prune algorithm tries to solve by the full exploration of its solutions space. The results obtained by iBPprot on a set of test proteins, with sizes ranging from 24 to 120 residues and with known structures, are analyzed here. Using short-range exact distance restraints, it was possible to rebuild the structure of all protein targets, and for many of them it was possible to exhaustively explore their conformational spaces. In practice, it is not always possible to obtain exact distance restraints from experiments. Therefore, this method was then tested with interval data restraints. In these cases, iBPprot permitted the sampling of the positions of more than 70% of the atoms constituting the protein backbone for most of the targets. Furthermore, conformations whose r.m.s. deviations closer than 6 Angstrom to the target ones were obtained during the conformational space exploration. The quality of the generated structures was satisfactory with respect to Ramachandran plots, but needs improvement because of the presence of steric clashes in some conformers. The runtime for most performed calculations was competitive with existing structure determination method
APA, Harvard, Vancouver, ISO, and other styles
42

Chèneby, Jeanne. "Etudes des éléments cis-régulateurs : identification et caractérisation." Thesis, Aix-Marseille, 2019. http://www.theses.fr/2019AIXM0520.

Full text
Abstract:
Le processus de régulation de la transcription des gènes repose très largement sur l’existence de séquences d’ADN non codantes dans le génome. Ces séquences d’ADN, appelées “éléments cis-régulateurs”, ont la particularité de recruter de nombreuses protéines capables de réguler le niveau de transcription des gènes. La fixation directe ou indirecte de ces protéines régulatrices sur les éléments cis-régulateurs permettent une régulation des gènes dans l’espace et dans le temps. L'accumulation massive des données de séquençage dans les banques de données publiques permet l'intégration de nombreuses expériences capturant les interactions entre les protéines régulatrice et l’ADN par des moyens bioinformatiques. Le but de mon doctorat a été d’annoter et traiter de façon uniforme les données brutes issues d’expériences de séquençage dont l’objectif est d’identifier les régions de fixation des protéines régulatrices pour l’Homme puis chez Arabidopsis Thaliana. Nous avons traité des données de ChIP-seq, ChIP-exo et DAP-seq afin d'élaborer plusieurs catalogues de régions régulatrices. Toutes ces données sont disponibles au sein du projet ReMap. Pour effectuer ces analyses nous avons développé des workflows reproductibles, scalables et portables sur des architectures différentes. Ces données ont aussi été utilisées pour identifier les sites de fixations reconnus par les facteurs de transcription et pour consolider la base de données JASPAR. Enfin, ce catalogue a été utilisé dans le développement d’une nouvelle méthode permettant de différencier les événements de fixations directes et indirectes par les protéines dans les résultats de ChIP-seq
The regulation of gene transcription is largely based on the existence of non-coding DNA sequences in the genome. These DNA sequences, called "cis-regulatory elements", have the particularity of recruiting many proteins capable of regulating the level of gene transcription. The direct or indirect binding of these regulatory proteins to cis-regulatory elements allows the regulation of genes in space and time. The massive accumulation of sequencing data in public databases allows the integration of many experiments that capture the interactions between regulatory proteins and DNA through bioinformatics. The purpose of my PhD was to annotate and process in a uniform way the raw data from sequencing experiments whose objective is to identify the binding regions of regulatory proteins for humans and then for Arabidopsis Thaliana. We processed data from ChIP-seq, ChIP-exo and DAP-seq to develop several catalogues of regulatory regions. All this data is available within the ReMap project. To carry out these analyses we have developed reproducible, scalable and portable workflows on different architectures. These data were also used to identify the binding sites recognized by the transcription factors and to consolidate the JASPAR database. Finally, this catalogue was used in the development of a new method to differentiate between direct and indirect protein binding events in ChIP-seq results
APA, Harvard, Vancouver, ISO, and other styles
43

Schweke, Hugo. "Développement d’une méthode in silico pour caractériser le potentiel d’interaction des surfaces protéiques dans un environnement encombré." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS554.

Full text
Abstract:
Dans la cellule, les protéines évoluent dans un environnement très dense et interagissent ainsi avec un grand nombre de partenaires spécifiques et non-spécifiques qui entrent en compétition. L’objectif de ma thèse est de caractériser les propriétés physiques et évolutives des surfaces protéiques pour comprendre comment la pression de sélection s’exerce sur les protéines, façonnant leurs interactions et régulant ainsi cette sévère compétition.Pour cela, j’ai développé une méthodologie permettant de caractériser la propension des protéines à interagir avec les protéines de leur environnement, par des approches de docking. La cartographie moléculaire permettant la visualisation et la comparaison des propriétés de la surface des protéines, j’ai donc mis en place un nouveau cadre théorique basé sur une représentation des paysages énergétiques d'interaction par des cartes d'énergies. Ces cartes (en deux dimensions) reflètent de manière synthétique la propension des surfaces protéiques à engager des interactions avec d’autres protéines. Elles sont donc d’un grand intérêt pratique pour déterminer les régions des surfaces protéiques les plus enclines à engager des interactions avec d’autres molécules.Ce nouveau cadre théorique a permis de montrer que les surfaces des protéines comprennent des régions de différents niveaux d'énergies de liaison (régions chaudes, intermédiaires et froides pour les régions d'interaction favorables, intermédiaires et défavorables respectivement).Une partie importante de la thèse a consisté à caractériser les propriétés physico-chimiques et évolutives de ces différentes régions. L'autre partie a consisté à appliquer cette méthode sur plusieurs systèmes : complexes homomériques, protéines du cytosol de S. cerevisiae, familles d'interologues. Ce travail ouvre la voie à un grand nombre d'applications en bioinformatique structurale, telles que la prédiction de sites de liaison, l’annotation fonctionnelle ou encore le design de nouvelles interactions.En conclusion, la stratégie mise en place lors de ma thèse permet d’explorer la propension d’une protéine à interagir avec des centaines de partenaires d'intérêts, et donc d'investiguer le comportement d’une protéine dans un environnement cellulaire spécifique. Cela va donc au-delà de l'utilisation classique du docking "binaire" puisque notre stratégie fournit une vision systémique des interactions protéiques à l’échelle des "résidus"
In the crowded cell, proteins interact with their functional partners, but also with a large number of non-functional partners that compete with the functional ones. The goal of this thesis is to characterize the physical properties and the evolution of protein surfaces in order to understand how selection pressure exerts on proteins, shaping their interactions and regulating this severe competition.To do this I developed a framework based on docking calculations to characterize the propensity of protein surfaces to interact with other proteins. Molecular cartography enables the visualization and the comparison of surface properties of proteins. I implemented a new theoretical framework based on the representation of interaction energy landscapes by 2-D energy maps. These maps reflect in a synthetic manner the propensity of the surface of proteins to interact with other proteins. These maps are useful from a practical point view for determining the regions of protein’s surface that are more prone to interact with other proteins. Our new theoretical framework enabled to show that the surface of proteins harbor regions with different levels of propensity to interact with other proteins (hot regions, intermediate and cold regions to favorable, intermediate and unfavorable regions respectively).A large part of this thesis work consisted in characterizing the physico-chemical properties and the evolution of these regions. The other part of this thesis work consisted in applying this methodology on several study systems: homomeric complexes, cytosolic proteins from S. cerevisiae, families of interologs. This work opens the way to numerous practical applications in structural bioinformatics, such as binding site prediction, functional annotation and the design of new interactions.To conclude, the strategy implemented in this work enable the exploration of the propensity of a protein to interact with hundred of protein partners. It thus enables the investigation of the behavior of a protein in a crowded environment. This application goes beyond the classical use of protein docking as a, because our strategy provides a systemic point of view of protein interactions at an atomic resolution
APA, Harvard, Vancouver, ISO, and other styles
44

Bricout, Alexandre. "Mise en évidence d’une forte diversité structurale de lipopeptides chez P. syringae, un complexe bactérien aux activités antifongiques prometteuses." Electronic Thesis or Diss., Université de Lille (2018-2021), 2020. http://www.theses.fr/2020LILUR011.

Full text
Abstract:
L’utilisation de microorganismes ou de substances naturelles d’origine microbienne est une des solutions alternatives actuellement envisagées pour remplacer partiellement ou totalement les pesticides conventionnels. Dans ce contexte, l’objectif de ce travail de thèse a été d’évaluer le potentiel de biocontrôle des souches de P. syringae. Une étude des lipopeptides produits par les souches du complexe P. syringae a d’abord été réalisée car ces molécules sont connues pour leurs activités antimicrobiennes puis l’activité antifongique des bactéries a été analysée. Pour y parvenir, une collection de 709 souches, représentative de la diversité phylogénétique du complexe P. syringae, a été explorée. Grâce à une stratégie faisant intervenir des approches complémentaires de spectrométrie de masse et de bioinformatique, il a été possible de révéler une forte diversité structurale de lipopeptides : 61 lipopeptides dont 38 nouveaux, répartis dans les 5 familles décrites chez P. syringae (syringafactine, syringomycine, corpeptine, syringopeptines 22 et 25) ont été identifiés. Ces lipopeptides sont produits par 81,1% des souches de la collection étudiée, réparties dans 8 des 13 phylogroupes référencés au sein du complexe P. syringae. Concernant leurs activités, 22,3% des souches ont montré une activité antifongique in vitro. Les lipopeptides, produits par 97,3% des souches antifongiques et retrouvés dans des surnageants de culture bruts et semi-purifiés, sont certainement responsables de ces activités. Enfin, deux souches ont montré, in planta, un potentiel intéressant de biocontrôle de la septoriose du blé, causée par le champignon phytopathogène Zymoseptoria tritici. Leurs surnageants de culture bruts et ultrafiltrés, ont montré des niveaux de protection du blé allant jusqu’à 62% par rapport au témoin d’infection
The use of microorganisms or natural substances of microbial origin is one of the identified alternatives to partially or totally replace conventional pesticides. In this context, the aim of this thesis was to evaluate the biocontrol potential of strains belonging to the P. syringae complex. First, the lipopeptides produced by strains of this bacterial complex have been studied because these molecules are known for their antimicrobial activities. Then, the antifungal activity of these bacteria was analysed. To reach this goal, a collection of 709 strains, representative of the phylogenetic diversity of the P. syringae complex, was explored. Through a strategy involving complementary approaches of mass spectrometry and bioinformatics, it has been possible to reveal a huge lipopeptide structural diversity: in total, 61 lipopeptides, including 38 new, distributed into the 5 families described in the P. syringae complex (syringafactin, syringomycin, corpeptin, syringopeptins 22 and 25) have been identified. Lipopeptides producing strains, which represent 81.1% of the collection studied, belong to 8 of the 13 phylogroups referenced in the P. syringae complex. Concerning their activities, 22.3% of the strains have shown an antifungal activity in vitro. Lipopeptides, which are produced by 97,3% of the antifungal strains and are also found in crude and ultra-filtered cell free supernatants, are certainly responsible for these activities. Finally, two strains have shown, in planta, an interesting potential for the biocontrol of Septoria tritici blotch of wheat caused by the fungus Zymoseptoria tritici. Their crude and ultra-filtered cell free supernatants have shown different wheat protection levels up to 62% compared to the infection control
APA, Harvard, Vancouver, ISO, and other styles
45

Gianfrotta, Coline. "Modélisation, analyse et classification de motifs structuraux d'ARN à partir de leur contexte, par des méthodes d'algorithmique de graphes." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG056.

Full text
Abstract:
Dans cette thèse, nous étudions le contexte structural de motifs structuraux d'ARN dans le but de progresser vers leur prédiction. En effet, certains motifs d'ARN, sous-structures apparaissant de façon récurrente dans les structures d'ARN, restent difficiles à prédire, en raison de la présence d'interactions non canoniques dans ces motifs, et en raison de la distance sur la séquence primaire séparant les différentes parties de ces motifs. Nous modélisons ainsi par des graphes le contexte structural topologique de ces motifs, et comparons les contextes des différentes occurrences en utilisant plusieurs algorithmes de graphes. Nous classifions ensuite les occurrences de motif selon leurs similarités de contexte topologique et selon leurs similarités de contexte 3D, à l'aide d'un algorithme de clustering recouvrant.Dans un premier temps, nous montrons sur un jeu de données de trois motifs structuraux que les similarités observées entre les contextes topologiques sont cohérentes avec les similarités entre les contextes 3D. Cela indique que le contexte topologique peut être suffisant pour déterminer le contexte 3D pour ces trois motifs.Dans un deuxième temps, nous étudions plusieurs classifications d'occurrences du motif A-minor, selon des similarités de contexte 3D. Nous y observons que des similarités de contexte 3D existent entre occurrences non homologues, ce qui pourrait être le signe d'un phénomène de convergence évolutive. De plus, nous observons que certaines parties du contexte 3D semblent mieux conservées que d'autres entre occurrences non homologues.Dans un troisième temps, nous étudions la capacité de prédiction du contexte topologique commun à des occurrences de motif A-minor, partageant des contextes 3D similaires, ainsi que la capacité de prédiction d'un signal de séquence sur ces mêmes occurrences. Pour cela, nous étudions la fréquence d'apparition de cette topologie et de ces séquences dans des structures d'ARN en l'absence de motifs A-minor. Nous en concluons que la topologie et la séquence associées représentent un bon signal pour la majorité des classes d'occurrences homologues étudiées
In this thesis, we study the structural context of RNA structural motifs in order to make progress in their prediction. Indeed, some RNA motifs, which are substructures appearing recurrently in RNA structures, remain difficult to predict, because of the presence of non-canonical interactions in these motifs, and because of the distance on the primary sequence between the different parts of these motifs. We therefore model the topological structural context of these motifs by graphs, and compare the contexts of the different occurrences using several graph algorithms. We then classify the motif occurrences according to their topological context similarities and according to their 3D context similarities, using an overlapping clustering algorithm.First, we show on a dataset of three structural motifs that the observed similarities between the topological contexts are consistent with the similarities between the 3D contexts. This indicates that the topological context may be sufficient to determine the 3D context for these three motifs.In a second step, we study several classifications of occurrences of the A-minor motif, according to 3D context similarities. We observe that 3D context similarities exist between non-homologous occurrences, which could be a sign of an evolutionary convergence phenomenon. Moreover, we observe that some parts of the 3D context seem to be better conserved than others between non-homologous occurrences.In a third step, we study the predictive ability of the common topological context of A-minor motif occurrences, sharing similar 3D contexts, as well as the predictive ability of a sequence signal on these same occurrences. To this end, we study the occurrence of this topology and sequence in RNA structures in the absence of A-minor motifs. We conclude that the topology and the sequence represent a good signal for the majority of the studied classes
APA, Harvard, Vancouver, ISO, and other styles
46

Douguet, Dominique. "Etude des interactions protéine-protéine et protéine-ligand par bio- et chimie-informatique structurale : Identification de petites molécules bio-actives." Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2007. http://tel.archives-ouvertes.fr/tel-00320089.

Full text
Abstract:
Mes recherches ont eu pour objectif de concilier deux aspects complémentaires de la bioinformatique structurale : la modélisation de la structure 3D des protéines et la modélisation des petites molécules modulatrices des premières. La connaissance de la structure tridimensionnelle des protéines est un élément déterminant pour la compréhension fine de leur mécanisme d'action et indispensable pour le développement d'approches thérapeutiques rationnelles. Ainsi, l'identification et l'analyse structurale des sites de fixation de leurs ligands (protéine ou petite molécule) permettent d'envisager la modulation de leur fonction biologique. Les interactions protéine-protéine ou protéine-ligand peuvent être prédites, par exemple, par des programmes d'amarrage (ou ‘docking').
La modélisation par homologie permet d'obtenir un modèle tridimensionnel d'une protéine lorsque sa structure n'a pas été déterminée expérimentalement. Ma contribution dans ce domaine fut la réalisation du serveur @TOME avec le soutien de la GENOPOLE Languedoc-Roussillon (accessible à l'adresse http://bioserver.cbs.cnrs.fr). Ce serveur était le premier de ce type à avoir été développé en France. Le serveur @TOME rassemble et traite d'une manière automatique toutes les étapes nécessaires à la construction d'un modèle 3D d'une protéine. Cela inclut la reconnaissance du repliement, la construction des modèles protéiques et leur évaluation. Les résultats du CASP5 en 2005 (session internationale d'évaluation des méthodes de prédiction de la structure des protéines ; http://predictioncenter.llnl.gov/) ont montré que notre serveur utilisé en mode automatique propose des modèles très proches de la structure expérimentale lorsque l'identité de séquence avec la structure support est supérieure à 30%. Le serveur a été classé 26ième sur 187 groupes inscrits.
Dans un second temps, mes recherches m'ont permis de réaliser une base de données de complexes protéiques co-cristallisés, base fondatrice du projet DOCKGROUND. Ce projet de grande envergure, soutenu par le NIH depuis 2005, vise à établir un système intégré et dynamique de bases de données dédié à l'étude et à la prédiction des interactions entre protéines et permettre ainsi d'améliorer nos connaissances des interactions et de développer des outils de prédiction plus fiables. Ce travail a été effectué au sein de l'équipe du Pr. Ilya Vakser à l'Université de Stony Brook, NY, USA. Dans la réalisation de cette première base de données, un ensemble de programmes collectent, classent et annotent les complexes protéiques qui ont été co-cristallisés (données sur la séquence, la fonction, le repliement 3D, les particularités telles qu'une fixation à de l'ADN, ...). Ensuite, j'ai mis en œuvre une sélection dynamique des représentants des complexes contenus dans cette base. Les représentants sont essentiels pour éviter une surreprésentation de certaines familles de protéines. Cette base de donnée est accessible par Internet et est régulièrement mise à jour (http://dockground.bioinformatics.ku.edu). Le projet DOCKGROUND va être poursuivi par la réalisation de 3 autres bases de données qui s'ancreront sur la présente appelée ‘Bound-Bound'.
L'objectif principal de mes travaux est d'identifier de nouveaux composés bio-actifs afin de comprendre le fonctionnement de leur cible dans un contexte biologique. Les méthodes que j'utilise se basent sur la chémoinformatique, le criblage virtuel et le de novo ‘drug design'. Dans le cadre de ce dernier, j'ai mis au point un programme propriétaire LEA3D (‘Ligand by Evolutionary Algorithm' 3D). Le programme génère des petites molécules à partir de la combinaison de fragments moléculaires issus de drogues et de molécules ‘bio' (substrats ou produits de réactions enzymatiques). Le criblage virtuel basé sur la structure protéique et le de novo ‘drug design' par LEA3D, ont été appliqués avec succès à la thymidine monophosphate kinase (TMPK) de Mycobacterium tuberculosis dans le cadre d'une collaboration avec une équipe de chimistes et de biologistes de l'Institut Pasteur. De nouvelles familles d'inhibiteurs ont été identifiées dont un inhibiteur synthétique trois fois plus affin que le substrat naturel. Plusieurs publications et une demande de brevet couvrent les résultats de ces recherches. Dans la continuité de ces travaux, je m'intéresse maintenant, plus particulièrement, à développer des stratégies de criblages de fragments (molécules de petit poids moléculaire). Il a été montré que de petites chimiothèques contenant des petites molécules polaires sont plus efficaces pour identifier des touches. Ce travail doit être réalisé conjointement avec des criblages structuraux expérimentaux comme la RMN ou la diffraction des rayons X. Ces derniers se posent comme une alternative aux tests in vitro avec pour avantage de donner une information détaillée, au niveau atomique, des interactions entre le ligand et sa cible. S'ensuit une étape d'optimisation/maturation des touches en ligands plus élaborés et plus affins par l'utilisation d'outils de chémoinformatique.
APA, Harvard, Vancouver, ISO, and other styles
47

Bricout, Alexandre. "Mise en évidence d’une forte diversité structurale de lipopeptides chez P. syringae, un complexe bactérien aux activités antifongiques prometteuses." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1R011.

Full text
Abstract:
L’utilisation de microorganismes ou de substances naturelles d’origine microbienne est une des solutions alternatives actuellement envisagées pour remplacer partiellement ou totalement les pesticides conventionnels. Dans ce contexte, l’objectif de ce travail de thèse a été d’évaluer le potentiel de biocontrôle des souches de P. syringae. Une étude des lipopeptides produits par les souches du complexe P. syringae a d’abord été réalisée car ces molécules sont connues pour leurs activités antimicrobiennes puis l’activité antifongique des bactéries a été analysée. Pour y parvenir, une collection de 709 souches, représentative de la diversité phylogénétique du complexe P. syringae, a été explorée. Grâce à une stratégie faisant intervenir des approches complémentaires de spectrométrie de masse et de bioinformatique, il a été possible de révéler une forte diversité structurale de lipopeptides : 61 lipopeptides dont 38 nouveaux, répartis dans les 5 familles décrites chez P. syringae (syringafactine, syringomycine, corpeptine, syringopeptines 22 et 25) ont été identifiés. Ces lipopeptides sont produits par 81,1% des souches de la collection étudiée, réparties dans 8 des 13 phylogroupes référencés au sein du complexe P. syringae. Concernant leurs activités, 22,3% des souches ont montré une activité antifongique in vitro. Les lipopeptides, produits par 97,3% des souches antifongiques et retrouvés dans des surnageants de culture bruts et semi-purifiés, sont certainement responsables de ces activités. Enfin, deux souches ont montré, in planta, un potentiel intéressant de biocontrôle de la septoriose du blé, causée par le champignon phytopathogène Zymoseptoria tritici. Leurs surnageants de culture bruts et ultrafiltrés, ont montré des niveaux de protection du blé allant jusqu’à 62% par rapport au témoin d’infection
The use of microorganisms or natural substances of microbial origin is one of the identified alternatives to partially or totally replace conventional pesticides. In this context, the aim of this thesis was to evaluate the biocontrol potential of strains belonging to the P. syringae complex. First, the lipopeptides produced by strains of this bacterial complex have been studied because these molecules are known for their antimicrobial activities. Then, the antifungal activity of these bacteria was analysed. To reach this goal, a collection of 709 strains, representative of the phylogenetic diversity of the P. syringae complex, was explored. Through a strategy involving complementary approaches of mass spectrometry and bioinformatics, it has been possible to reveal a huge lipopeptide structural diversity: in total, 61 lipopeptides, including 38 new, distributed into the 5 families described in the P. syringae complex (syringafactin, syringomycin, corpeptin, syringopeptins 22 and 25) have been identified. Lipopeptides producing strains, which represent 81.1% of the collection studied, belong to 8 of the 13 phylogroups referenced in the P. syringae complex. Concerning their activities, 22.3% of the strains have shown an antifungal activity in vitro. Lipopeptides, which are produced by 97,3% of the antifungal strains and are also found in crude and ultra-filtered cell free supernatants, are certainly responsible for these activities. Finally, two strains have shown, in planta, an interesting potential for the biocontrol of Septoria tritici blotch of wheat caused by the fungus Zymoseptoria tritici. Their crude and ultra-filtered cell free supernatants have shown different wheat protection levels up to 62% compared to the infection control
APA, Harvard, Vancouver, ISO, and other styles
48

Moniot, Antoine. "Modélisation 3D de complexes ARN-protéine par assemblage combinatoire de fragments structuraux." Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0339.

Full text
Abstract:
La caractérisation des complexes ARN-protéine à l'échelle atomique nous permet de mieux comprendre les fonctions de ces complexes, et de définir des cibles thérapeutiques pour réguler les phénomènes biologiques auxquels ils participent. L'objet de cette thèse est de développer des outils permettant de prédire la structure d'un complexe protéine-ARN lorsque l'on connaît une structure 3D de la protéine ainsi que la structure secondaire de la partie d'ARN en interaction. Nous nous concentrons sur le cas où l'ARN est principalement sous forme simple brin (nucléotides non appariés), posant la difficulté de sa flexibilité. Une méthode d'amarrage développée dans l'équipe CAPSID repose sur l'utilisation de fragments structuraux d'ARN simple brin. Le travail de cette thèse s'est appuyé sur cette méthode pour réaliser l'amarrage de structures secondaires de l'ARN. Nous avons d'abord évalué l'apport d'une contrainte de fermeture de boucle pour l'amarrage de la boucle simple brin d'une structure en épingle, puis abordé l'amarrage des éléments double brin de ces structures, ouvrant la voie à l'assemblage du complexe entier. Cette méthode d'amarrage est dépendante de l'utilisation de bibliothèques de fragments structuraux. Ces bibliothèques sont composées de prototypes qui représentent le paysage conformationnel observé expérimentalement dans les structures d'ARN liés à des protéines. Une large partie du travail de thèse a consisté en la création et l'optimisation de telles bibliothèques de fragments. Nous avons créé l'outil ProtNAff qui permet d'extraire de la PDB des sous-ensembles de structures et de créer des bibliothèques de fragments d'acides nucléiques, suivant des combinaisons complexes de critères. Il a été conçu de façon à dépasser nos besoins, afin d'être adopté par la communauté pour le traitement de problèmes variés. Nous avons développé une nouvelle approche pour l'inférence de prototypes représentatifs d'un ensemble de conformations. L'ensemble de prototypes doit satisfaire deux contraintes contradictoires: être représentatif (au sens de la métrique) et de cardinalité aussi petite que possible. Le problème se réduit donc à celui de l'inférence d'un epsilon-réseau de cardinalité minimale. Nous le traitons dans toute sa généralité en discutant des ensembles sur lesquels sont définies les données. Notre méthode se base sur la classification ascendante hiérarchique avec comme linkage le rayon des plus petites boules englobant les points de chaque sous-ensemble. Appliquée à nos bibliothèques, cette approche a permis de réduire d'un facteur 4 leur taille, et d'autant nos temps de calcul d'amarrage, tout en améliorant leur fiabilité. Enfin, pour pallier le problème posé par les superpositions de structures deux à deux, nous avons utilisé une représentation des fragments en coordonnées internes permettant de réduire encore les temps de calcul de création des bibliothèques
The characterization of RNA-protein complexes at the atomic scale allows us to better understand the biological functions of these complexes, and to define therapeutic targets to regulate the biological phenomena in which they participate. The aim of this thesis is to develop tools to predict the structure of a protein-RNA complex when a 3D structure of the protein is known as well as the secondary structure of the interacting RNA part. We focus on the case where RNA is mainly in single-stranded form (unpaired nucleotides), raising the difficulty of its flexibility.A docking method developed in the CAPSID team is based on the use of structural fragments of single-stranded RNA. The work of this thesis builds on this method to perform docking of RNA secondary structures. We first evaluated the contribution of a loop closure constraint for docking the single-stranded loop of a hairpin structure, and then addressed the docking of the double-stranded elements of these structures, paving the way for the assembly of the entire complex.This fragment-based docking method is dependent on the use of structural fragment libraries. These libraries are composed of prototypes that represent the conformational landscape experimentally observed in protein-bound RNA structures. A large part of the thesis work consisted in the creation and optimization of such fragment libraries.We created the ProtNAff tool that allows to extract subsets of structures from the PDB and to create libraries of nucleic acid fragments, following complex combinations of criteria. It has been designed to exceed our needs, so that it can be adopted by the community for the treatment of various problems.We have developed a new approach for inferring prototypes of a set of conformations. The set of prototypes must satisfy two contradictory constraints: to be representative (in the sense of the metric) and of cardinality as small as possible. The problem thus reduces to that of inferring an epsilon-network of minimal cardinality. We treat it in all its generality by discussing the spaces on which the data are defined. Our method is based on hierarchical agglomerative classification with as linkage the radius of the minimum balls enclosing the points of each subset. Applied to our libraries, this approach reduced their size by a factor of 4, and our docking computation time by the same amount, while improving their reliability.Finally, to overcome the problem posed by the pairwise superimposition of structures, we used a representation of the fragments in internal coordinates, allowing to reduce further the computation time for the creation of libraries
APA, Harvard, Vancouver, ISO, and other styles
49

Bérenger, François. "Nouveaux logiciels pour la biologie structurale computationnelle et la chémoinformatique." Thesis, Paris, CNAM, 2016. http://www.theses.fr/2016CNAM1047/document.

Full text
Abstract:
Ma thèse introduit cinq logiciels de trois différents domaines: le calcul parallèle et distribué, la biologie structurale computationnelle et la chémoinformatique. Le logiciel pour le calcul parallèle et distribué s'appelle PAR. PAR permet d'exécuter des expériences indépendantes de manière parallèle et distribuée. Les logiciels pour la biologie structurale computationnelle sont Durandal, EleKit et Fragger. Durandal exploite la propagation de contraintes géométriques afin d'accélérer l'algorithme de partitionnement exact pour des modèles de protéines. EleKit permet de mesurer la similarité électrostatique entre une petite molécule et la protéine qu'elle est conçue pour remplacer sur une interface protéine-protéine. Fragger est un cueilleur de fragments de protéines permettant de sélectionner des fragments dans la banque de protéines mondiale. Enfin, le logiciel de chémoinformatique est ACPC. ACPC permet l'encodage fin, d'une manière rotation-translation invariante, d'une molécule dans un ou une combinaison des trois espaces chimiques (électrostatique, stérique ou hydrophobe). ACPC est un outil de criblage virtuel qui supporte les requêtes consensus, l'annotation de la molécule requête et les processeurs multi-coeurs
This thesis introduces five software useful in three different areas : parallel and distributed computing, computational structural biology and chemoinformatics. The software from the parallel and distributed area is PAR. PAR allows to execute independent experiments in a parallel and distributed way. The software for computational structural biology are Durandal, EleKit and Fragger. Durandal exploits the propagation of geometric constraints to accelerate the exact clustering algorithm for protein models. EleKit allows to measure the electrostatic similarity between a chemical molecule and the protein it is designed to replace at a protein-protein interface. Fragger is a fragment picker able to select protein fragments in the whole protein data-bank. Finally, the chemoinformatics software is ACPC. ACPC encodes in a rotation-translation invariant way a chemical molecule in any or a combination of three chemical spaces (electrostatic, steric or hydrophobic). ACPC is a ligand-based virtual screening tool supporting consensus queries, query molecule annotation and multi-core computers
APA, Harvard, Vancouver, ISO, and other styles
50

Lombard, Valentin. "Geometric deep manifold learning combined with natural language processing for protein movies." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS379.

Full text
Abstract:
Les protéines jouent un rôle central dans les processus biologiques, et comprendre comment elles se déforment et se déplacent est essentiel pour élucider leurs mécanismes fonctionnels. Malgré les récentes avancées dans les technologies à haut débit, qui ont élargi nos connaissances sur les structures protéiques, la prédiction précise de leurs différents états conformationnels et mouvements reste un défi majeur. Nous présentons deux approches complémentaires pour relever le défi de la compréhension et de la prédiction de l'ensemble de la variabilité conformationnelle des protéines. La première approche, appelée Dimensionality Analysis for protein Conformational Exploration (DANCE), permet une description systématique et complète de la variabilité conformationnelle des familles de protéines. DANCE prend en compte à la fois les structures expérimentales et prédites. Elle est adaptée à l'analyse des protéines individuelles jusqu'aux superfamilles. En l'utilisant, nous avons regroupé toutes les structures protéiques résolues expérimentalement disponibles dans la banque de données Protein Data Bank en collections conformationnelles et les avons caractérisées comme des ensembles de mouvements linéaires. Cette ressource facilite l'accès et l'exploitation des multiples états adoptés par une protéine et ses homologues. Au-delà de l'analyse descriptive, nous avons évalué des techniques classiques de réduction de la dimensionnalité pour échantillonner des états non observés sur un banc d'essai représentatif. Ce travail améliore notre compréhension de la manière dont les protéines se déforment pour accomplir leurs fonctions et ouvre la voie à une évaluation standardisée des méthodes conçues pour échantillonner et générer des conformations protéiques. La deuxième approche repose sur l'apprentissage profond pour prédire des représentations continues du mouvement des protéines directement à partir de séquences, sans avoir besoin de données structurelles. Ce modèle, appelé SeaMoon, utilise des embeddings de modèles de langage protéique (pLM) comme entrées dans un réseau neuronal convolutif léger comptant environ un million de paramètres entraînables. SeaMoon atteint un taux de réussite de 40 % lorsqu'il est évalué sur environ 1 000 collections de conformations expérimentales, capturant des mouvements au-delà de la portée des méthodes traditionnelles comme l'analyse des modes normaux, qui repose uniquement sur la géométrie 3D. De plus, SeaMoon se généralise à des protéines n'ayant aucune similitude de séquence détectable avec son ensemble d'entraînement et peut être facilement réentraîné avec des pLM mis à jour. Ces deux approches offrent un cadre unifié pour faire progresser notre compréhension de la dynamique des protéines. DANCE fournit une exploration détaillée des mouvements protéiques basée sur des données structurelles, tandis que SeaMoon démontre le potentiel des modèles d'apprentissage profond basés sur les séquences pour capturer des mouvements complexes sans dépendre d'informations structurelles explicites. Ensemble, elles ouvrent la voie à une compréhension plus complète de la variabilité conformationnelle des protéines et de son rôle dans la fonction biologique
Proteins play a central role in biological processes, and understanding how they deform and move is essential to elucidating their functional mechanisms. Despite recent advances in high-throughput technologies, which have broadened our knowledge of protein structures, accurate prediction of their various conformational states and motions remains a major challenge. We present two complementary approaches to address the challenge of understanding and predicting the full range of protein conformational variability. The first approach, Dimensionality Analysis for protein Conformational Exploration (DANCE) for a systematic and comprehensive description of protein families conformational variability. DANCE accommodates both experimental and predicted structures. It is suitable for analyzing anything from single proteins to superfamilies. Employing it, we clustered all experimentally resolved protein structures available in the Protein Data Bank into conformational collections and characterized them as sets of linear motions. The resource facilitates access and exploitation of the multiple states adopted by a protein and its homologs. Beyond descriptive analysis, we assessed classical dimensionality reduction techniques for sampling unseen states on a representative benchmark. This work improves our understanding of how proteins deform to perform their functions and opens ways to a standardized evaluation of methods designed to sample and generate protein conformations. The second approach relies on deep learning to predict continuous representations of protein motion directly from sequences, without the need for structural data. This model, SeaMoon, uses protein language model (pLM) embeddings as inputs to a lightweight convolutional neural network with around 1 million trainable parameters. SeaMoon achieves a success rate of 40% when evaluated against around 1,000 collections of experimental conformations, capturing movements beyond the reach of traditional methods such as normal mode analysis, which relies solely on 3D geometry. In addition, SeaMoon generalizes to proteins that have no detectable sequence similarity with its training set and can be easily retrained with updated pLMs. These two approaches offer a unified framework for advancing our understanding of protein dynamics. DANCE provides a detailed exploration of protein movements based on structural data, while SeaMoon demonstrates the potential of sequence-based deep learning models to capture complex movements without relying on explicit structural information. Together, they pave the way for a more comprehensive understanding of protein conformational variability and its role in biological function
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography