Urquiola, Hernandez Andreina. "Nano-séquenceur de protéines assisté par intelligence artificielle." Electronic Thesis or Diss., Dijon, Université Bourgogne Europe, 2025. http://www.theses.fr/2025UBEUK006.
Abstract:
Les technologies de séquençage ont révolutionné la biologie moléculaire en permettant l’analyse directe des séquences d’ADN et de protéines, ce qui est crucial pour : i) approfondir nos connaissances des systèmes biologiques, ii) le diagnostic précoce de maladies, ou iii) le stockage des données biomoléculaires. Dans cette thèse, nous avons exploré pleinement le potentiel des nanopores solides (SSNs) pour la détection de molécules uniques (protéines), en particulier les membranes nanoporeuses 2-D de type MoS2 . Le principe général de détection d’une molécule unique par des SSNs est que, lorsqu’une molécule biologique (chargée) dans une solution ionique traverse le nanopore, celle-ci bloque le flux des ions durant son passage. La mesure ultra-rapide des fluctuations de courant fournit ainsi des informations structurales sur la molécule à partir de l’analyse de l’amplitude des chutes de courant et de leurs durées, interprétées comme des évènements de translocation. Tout d’abord, à l’aide de simulations de dynamique moléculaire classique "tous atomes" en solvant explicite et non biaisées, nous avons analysé la dynamique de translocation des vingt acides aminés qui composent les protéines et identifié leurs empreintes de courant ionique à partir de techniques d’apprentissage machine. Plus précisément, des méthodes d’apprentissage non supervisées ont été utilisées pour regrouper les niveaux de blocage du courant ionique extraits des séries temporelles enregistrées pendant les simulations. Cela nous a permis de discriminer avec précision les acides aminés chargés positivement et négativement des acides aminés neutres. Ces résultats prometteurs ouvrent la voie au séquençage "à gros grains" des protéines basé sur la charge des acides aminés, un nouveau concept introduit pour la première fois dans ce travail. Deuxièmement, en utilisant une procédure de dynamique moléculaire similaire, nous avons réalisé des simulations de translocation pour douze séquences de peptides distinctes faites d’un acide aminé chargé positivement, d’un chargé négativement et de quatre neutres (composition identique). L’objectif était d’encoder des informations dans ces séquences de peptides et d’explorer le potentiel d’utilisation des nanopores solides de type MoS2 pour des applications de stockage de données moléculaires. En utilisant des techniques d’apprentissage machine supervisées cette fois-ci, en particulier des modèles de classification, nous avons identifié les séquences de peptides spécifiques capables de représenter de manière fiable des données binaires. Les principales caractéristiques de translocation, comme la chute du courant ionique et le temps de résidence dans le pore, ont été extraites et analysées pour discriminer les paires de séquences idéales représentant les bits 0 et 1. Cette approche innovante montre la faisabilité de réaliser des systèmes de stockage de données moléculaires denses, robustes et stables à l’aide de séquences de peptides composés de 3 acides aminés différents, ouvrant la voie aux solutions évolutives et durables pour l’encodage d’informations au niveau moléculaire. Enfin, nous avons exploré l’utilisation de méthodes d’apprentissage profond pour prédire la dynamique des acides aminés des peptides et les fluctuations du courant ionique enregistrées pendant leur passage à travers des nanopores de type MoS2 . En utilisant des réseaux de neurones Long Short-Term Memory (LSTM), qui excellent dans la capture de dépendances temporelles complexes dans les données de séries temporelles, nous avons prédit des courants ioniques et en avons déduit les positions des acides aminés à partir des séries temporelles du courant ionique extraites des simulations de dynamique moléculaire. Ces résultats préliminaires concernant l’intégration des techniques d’apprentissage profond pour étudier des séries temporelles enregistrées par nanopores montrent leur potentiel significatif pour analyser des observations expérimentales<br>Sequencing technology has revolutionized molecular biology by enabling the direct analysis of DNA and protein sequences, which is crucial for: i) a better understanding of biological systems, ii) early disease diagnosis, or iii) biomolecular data storage. In the present thesis, we fully explored the potential of solid-state nanopores (SSNs) for single-biological molecule detection, particularly single-layer MoS2 nanoporous membranes, as versatile technologies for protein sequencing applications. The detection principle using SSNs relies on measuring the relatively small variations of ionic current as charged biomolecules immersed in an electrolyte traverse the nanopore, in response to an external voltage applied across the membrane. The passage of a biomolecule through the pore yields information about its structure and chemical properties.First, through extensive unbiased all-atom classical molecular dynamics (MD) simulations in explicit solvent combined with machine learning techniques, we analyzed translocation dynamics of the twenty proteinogenic amino acids and identified their ionic current fingerprints. Specifically, unsupervised learning methods were employed to cluster blockade levels of ionic current extracted from structural break of time series recorded during MD. It enables the accurate discrimination of positively, negatively charged, and neutral amino acids. These findings pave the way to coarse-grained sequencing of proteins based on the amino acid charge, a new concept introduce for the first time in the present work to the best of our knowledge.Second, using similar MD procedure, we performed translocation simulations of twelve distinct peptide sequences made of 1 positively, one negatively and four neutral amino acids (identical composition). The goal was to encode information into peptide sequences and investigate the potential of using MoS2 SSNs for molecular data storage applications. By leveraging machine learning techniques, in particular classification models, we identified specific peptide sequences capable of reliably representing binary data. Key translocation features, such as ionic current drop and dwell time, were extracted and analyzed to discriminate the ideal pairs of sequences representing bits 0 and 1. This innovative approach highlights the feasibility of achieving high-density, robust, and stable molecular data storage systems using peptide sequences, paving the way for scalable and sustainable solutions in molecular-level information encoding.Finally, we explored the use of deep learning methods to forecast the dynamics of peptide residues and ionic current fluctuations during their passage through MoS2 nanopores. By employing Long Short-Term Memory (LSTM) neural networks, which excel at capturing complex temporal dependencies in time-series data, we predicted ionic currents and infer residue positions from the ionic current time series extracted from MD simulations. These preliminary results about the integration of deep learning techniques to study nanopore recorded time series highlights their significant potential in bridging experimental observations and computational predictions. It provides a robust framework for improving the resolution and accuracy of nanopore-based protein sequencing.This research project demonstrates that MoS2 nanopores are promising platforms for both protein sequencing and molecular data storage applications. By combining MD simulations with artificial intelligence techniques, we established a robust framework for the identification of biological molecules (proteins) and for the encoding of information at the molecular level. The findings presented here contribute to the advancement of next-generation nanotechnology applications, including proteomics, diagnostics, and sustainable molecular data storage solutions