< Terug naar vorige pagina

Project

ONTDEKKINGSTOCHT NAAR DE CODE VAN HET LEVEN: VAN DECODEREN TOT ONTWERPEN VAN CELTYPE-SPECIFIEKE ENHANCERS VIA DEEP LEARNING

Cellulaire identiteit, die wordt bepaald door de activiteit van bepaalde genen, wordt geleverd door de transcriptionele versterkercode gecombineerd met differentiële en combinatorische expressie van transcriptiefactoren. Deze code speelt een centrale rol in de regulatie van genexpressie. Om de functionele impact van niet-coderende genoomvariatie te begrijpen en om celtypespecifieke drivers te ontwikkelen, is het decoderen van de code van versterkers essentieel. Hier in dit proefschrift streven we naar het decoderen en ontwerpen van celtype-specifieke versterkers door deep learning-modellen, integratieve genomica en hun interpretaties te combineren.

In het eerste deel van dit proefschrift hebben we ons gericht op het ontcijferen van de versterkercode in melanoom, een kankerceltype dat wordt gekenmerkt door verschillende celtoestanden. Eerst hebben we een deep learning-model, DeepMEL, getraind op DNA-sequenties met behulp van chromatine-toegankelijkheidsgegevens die zijn verkregen van 16 verschillende van menselijke patiënten afkomstige cellijnen. DeepMEL voorspelt precies de functie van de versterker, en we hebben het model gebruikt om de code en architectuur van versterkers te begrijpen en om bindingsplaatsen voor transcriptiefactoren te identificeren voor de belangrijkste regulerende complexen. Bovendien bestudeerden we, door gebruik te maken van chromatine-toegankelijkheidsgegevens van 5 andere soorten, de code van orthologe versterkers en hun behoud met behulp van het DeepMEL-model en benadrukten we nucleotidesubstituties die ten grondslag liggen aan de omzet van de versterker.

In het tweede deel van het proefschrift wilden we mutaties identificeren en interpreteren in functionele versterkers die we verkregen uit 10 verschillende persoonlijke kankergenomen. Ten eerste hebben we ons initiële DeepMEL-model verbeterd met aanvullende trainingsgegevens en met betere trainingsstrategieën, wat leidde tot de creatie van het DeepMEL2-model. Vervolgens hebben we, door dit model te gebruiken, allelspecifieke chromatine-toegankelijkheidsvarianten (ASCAV's) in melanoomgenomen gescoord en geïnterpreteerd en waargenomen dat een aanzienlijk deel van de ASCAV's wordt veroorzaakt door veranderingen in AP-1-bindingsplaatsen, en ons model presteerde beter dan op motieven gebaseerde benaderingen. of meer generieke deep learning-modellen.

In het derde deel van het proefschrift zijn we overgestapt op een meercellig en complexer systeem, namelijk het Drosophila-brein. Met behulp van single-cell chromatine-toegankelijkheidsgegevens hebben we ons DeepFlyBrain-model getraind om de code van celtypespecifieke neuronale en gliale versterkers te begrijpen. De versterkerarchitecturen die door het model werden onthuld, leidden tot een beter begrip van neuronale regulatoire diversiteit en hoe deze tot stand komt. Bovendien hebben we aangetoond dat het model kan worden gebruikt om genetische driverlijnen voor verschillende celtypen op specifieke tijdstippen te snoeien, wat hun karakterisering en manipulatie vergemakkelijkt.

In het vierde en laatste deel van het proefschrift wilden we het synthetisch ontwerp van celtype-specifieke versterkers onderzoeken met behulp van de deep learning-modellen die we in de vorige delen van dit proefschrift hebben getraind en de nieuwe inzichten die we hadden verkregen. We hebben drie verschillende ontwerpstrategieën voor versterkers geïmplementeerd en vergeleken, geleid door onze deep learning-modellen: gerichte sequentie-evolutie, iteratieve motiefimplantatie en generatief ontwerp. Met deze strategieën waren we in staat functionele synthetische versterkers te creëren die zich richten op Kenyon-cellen in de hersenen van fruitvliegen en op menselijke melanoomcellen. Gerichte sequentie-evolutie toonde aan dat een willekeurige sequentie kan worden omgezet in een functionele versterker door slechts 10 seriële mutaties die repressorbindingsplaatsen vernietigen en activatorplaatsen creëren. We gebruikten ook in silico-evolutie om bestaande genomische sequenties te wijzigen: (1) om versterkers die actief zijn in twee celtypen te snoeien, waardoor ze specifiek worden voor slechts één celtype; (2) om versterkers die actief zijn in één celtype te vergroten, door de code voor een tweede celtype op te nemen in dezelfde versterker; en (3) om gebruik te maken van het potentieel van bijna-versterkersequenties of "verloren" versterkers (tijdens evolutie) die slechts een gedeeltelijke versterkercode hebben en deze om te zetten in functionele versterkers. Onderzoek van nucleotide-voor-nucleotide sequentie-evolutie toonde aan dat bijna alle geselecteerde mutaties geassocieerd waren met de creatie of vernietiging van een transcriptiefactor-bindingsplaats, in plaats van de contextuele sequentie tussen motiefinstanties te beïnvloeden. Dit suggereerde dat een combinatie van correct gepositioneerde activatormotieven, zonder de aanwezigheid van repressormotieven, voldoende zou zijn om een celtype-specifieke versterker te creëren. In de tweede strategie hebben we herkenningsmotieven ingebed voor transcriptiefactoren die samenwerken in onze doelceltypen. In het bijzonder hebben we zwakke en sterke activator-TF-bindingsplaatsen ingebed in willekeurige sequenties op de optimale posities gedicteerd door het deep learning-model. Dit leidde tot de identificatie van kritische motiefafstanden en stelde ons in staat om minimale versterkers te creëren, zelfs korter dan 50 bp. Voor elke strategie hebben we enkele tientallen versterkers geselecteerd en in vivo geëvalueerd met behulp van transgene vliegen, en in vitro in menselijke celkweek. De succesvolle toepassing van strategieën voor het ontwerpen van versterkers, geleid door deep learning-modellen op zowel vlieghersenen als menselijke kankercellen, toont aan dat deze strategieën

Datum:1 mei 2018 →  19 jul 2023
Trefwoorden:Deep Learning, Epigenomics
Disciplines:Andere biologische wetenschappen
Project type:PhD project