< Terug naar vorige pagina

Project

Ontwikkeling van een platform voor inferentie en analyse van microbiële netwerken

De groep organismen die we niet met het blote oog kunnen zien, worden microben genoemd. Ondanks hun kleine formaat hebben microben veel invloed op globale gezondheid en zijn ze belangrijke deelnemers in veel biochemische processen die plaatsvinden op de planeet. In het verleden hebben microbiologische studies voornamelijk de focus gelegd op specifieke soorten en bepaalde capaciteiten zoals de fixatie van stikstof in de bodem of hun potentieel als menselijke ziekteverwekkers. Echter is het duidelijk geworden dat microbiomen, de volledige verzameling van microben in een systeem, meer zijn dan de som der delen. Hun gedrag kan niet begrepen worden met een volledige beschrijving van microbieel gedrag in pure culturen, omdat interacties tussen microben veel bijdragen aan het functioneren van ecosystemen. In deze context heeft onderzoek naar microbiomen voor het eerst gedetailleerde kwantitatieve studies over de rol van microben in hun samenlevingen mogelijk gemaakt. Van groot belang daarbij zijn computationele methoden die zijn ontwikkeld om microbiële interacties te voorspellen op basis van tellingen van DNA. Deze methoden moeten om kunnen gaan met een aantal statistische problemen, zoals compositionaliteit (microbiële tellingen zijn fracties) en schaarsheid (veel microben zijn zeldzaam). De accuraatheid van methoden voor de inferentie van microbiële netwerken is hierom laag. Er is een nog fundamenteler probleem met deze aanpak, namelijk dat de associaties gevonden door de methoden niet per se lijken op microbiële interacties. Interacties tussen jagers en prooien kunnen ertoe leiden dat microben voorkomen in dezelfde ecosystemen, maar het kan ook leiden tot oscillaties waarbij de ene microbe alleen vaak voorkomt als de andere afwezig is. Hetzelfde geldt voor andere biotische interacties zoals parasitisme en amensalisme. Een ander probleem is dat abiotische interacties leiden tot associaties die vervolgens foutief begrepen worden als mogelijke biotische interacties. Als soorten reageren op abiotische factoren die microbiomen beïnvloeden, zoals de pH, kan dit de structuur van voorspelde netwerken drastisch beïnvloeden.

Gezien deze problemen is er een groot verschil tussen microbiële netwerken met associates en de soorten netwerken die in andere takken van de wetenschap bestudeerd worden (Hoofdstuk 2). De vraag of deze methoden voor het analyseren van netwerken toepasbaar zijn op microbiële netwerken is daardoor nog onbeantwoord. In deze thesis beschrijf ik daarom enkele computationele methoden die ik heb ontwikkeld om ons begrip van microbiële netwerken te verbeteren (Hoofdstukken 3-5). Deze omvatten een algoritme voor het vinden van clusters, software voor het vinden van de kernen van netwerken en software om met Neo4j databases te werken. Daarnaast presenteer ik een meta-analyse van een groot aantal netwerken om mogelijke factoren te onderzoeken die de structuren van netwerken kunnen beïnvloeden (Hoofdstuk 6). \newline

Het clusteralgoritme dat ik heb ontwikkeld, pakt een fundamenteel probleem aan betreffende het gewicht van associaties (Hoofdstuk 3). De meeste interacties hebben een richting, zodat het mogelijk is om te zien of de soort A de soort B beïnvloedt of dat de soort B de soort A beïnvloedt. Deze informatie ontbreekt vaak in netwerken met associaties, maar we weten wel vaak of de relatie tussen A en B een positief of negatief gewicht heeft. Dit betekent dat de soorten meer of minder vaak samen voorkomen. Niet alle clusteralgoritmes kunnen deze informatie gebruiken, omdat er veel zijn die alleen om kunnen gaan met positieve gewichten. Het manta clusteralgoritme dat ik ontwikkeld heb is wel in staat om dit te doen door een unieke normalisatie van de matrix. Ik toon op gesimuleerde data aan dat ons clusteralgoritme in staat is om gesimuleerde omgevingsstructuur terug te vinden. De meeste andere clusteralgoritmes kunnen dit ook, maar alleen als de data op de juiste manier behandeld is of hun instellingen voorzichtig ingesteld zijn. Op echte data is het manta clusteralgoritme ook in staat om betekenisvolle biologische structuur terug te vinden, sinds de gevonden clusters gelinkt konden worden aan abiotische factoren die microbiële samenlevingen beïnvloeden. Met het geïntroduceerde algoritme is het dus mogelijk om microbiële netwerken met associaties te clusteren zonder extra informatie vooraf.

De tweede methode die ik presenteer, is anuran, een toolbox om kernnetwerken mee te analyseren (Hoofdstuk 4). Kernnetwerken bevatten associaties die teruggevonden zijn in meerdere netwerken en daarom misschien geconserveerd zijn. In een meta-study van microbiële netwerken kunnen de netwerken gelijkenissen vertonen simpelweg omdat ze van vergelijkbare data gegenereerd zijn. Microbiomen van hetzelfde bioom delen namelijk veel van hun vaakst voorkomende soorten, omdat die onderdeel zijn van het kernmicrobioom. Een willekeurig monster van deze soorten kan daarom gebruikt worden om netwerken te genereren die erg op elkaar lijken. De anuran methode lost dit probleem op door netwerken te genereren die gebaseerd zijn op nulmodellen. Op deze manier kunnen gevonden kernnetwerken vergeleken worden met netwerken die gebaseerd zijn op de nulhypothese dat alle netwerken willekeurig zijn. De gevonden netwerken kunnen ook vergeleken worden met netwerken die synthetische kernnetwerken bevatten. Deze vergelijkingen maken meta-analyses van netwerken leerzamer omdat het mogelijk is om vast te stellen of een kernnetwerk groter of kleiner is dan verwacht zou worden op basis van willekeur. In casusstudies van netwerken gemaakt met data uit sponzen en uit de menselijke darm, vond ik kernnetwerken die significant groter waren dan de kernnetwerken gevonden voor willekeurige netwerken. Deze kernnetwerken leken gelinkt te zijn aan factoren die microbioomstructuur beïnvloeden. Voor de netwerken uit sponzen, was dit een eigenschap van de gastheersoort, terwijl het voor de netwerken van menselijke microbiomen de enterotypes leken te zijn. \newline

De mako toolbox is specifiek bedoeld voor de analyse van multi-omics data (Hoofdstuk 5). Deze toolbox definieert een schema voor het opslaan van data in een Neo4j database en bevat functies voor het schrijven van types biologische data naar een Neo4j database volgens dit schema. Gezien het formaat van multi-omics data, is het nuttig om te werken met een database zodat computergeheugen niet beperkend wordt. In tegenstelling tot een relationele database slaan netwerkdatabases zoals Neo4j hun data niet op als tabellen, maar als knooppunten en verbindingen tussen deze knooppunten. Daardoor zijn de Cypher queries die gebruikt worden om Neo4j databases te benaderen gebaseerd op patronen die meer lijken op de intuïtieve manier waarop mensen met gestructureerde informatie omgaan. Ik heb een verzameling van 60 netwerken gebruikt om de aanwezigheid van cliques met 3 en 4 knooppunten te onderzoeken en vond dat dierlijke biomen grotere aantallen cliques bevatten in tegenstelling tot andere biomen. Daarnaast toonde ik aan dat deze database gebruikt kan worden om op eenvoudige wijze metabole interacties te integreren die in de literatuur beschreven staan, waardoor het mogelijk werd om microbiële associaties op te vragen die weergaves konden zijn van deze metabole interacties.

De netwerken die bij mako waren geïntroduceerd, zijn ook gebruikt om de invloed van fylogenie en samenvattende statistieken van relatieve hoeveelheid op de netwerkgraad te bestuderen (Hoofdstuk 6). De netwerkgraad van een taxon geeft weer hoe verbonden een taxon is in een netwerk. Taxa met een hoge netwerkgraad of andere netwerkindicatoren worden vaak geacht belangrijk te zijn voor de structuur van ecosystemen en worden daarom sleutelsoorten genoemd, een ongeteste aanname die bekritiseerd was in de brief die het startpunt was van dit hoofdstuk. Daarom heb ik meerde statistische methoden en een machine learning methode gebruikt om de relatie tussen de hoeveelheid van een bacterie en de netwerkgraad te bestuderen. Hoewel deze methode niet in staat was om vast te stellen of taxa met een hoge netwerkgraad wel of niet sleutelsoorten waren, vond ik een significantie relatie tussen de prevalentie van een taxon en de netwerkgraad. Deze relatie was niet genoeg om een hoge netwerkgraad te voorspellen, omdat de machine learning methode nauwelijks beter functioneerde dan een nulmethode met alleen de gemiddelde netwerkgraad als voorspellende waarde. Daarom concludeerde ik dat er andere eigenschappen moeten zijn van microbiële taxa die bijdragen aan een hoge netwerkgraad, met als belangrijke kandidaat hun relatie met factoren die bijdragen aan de structuur van microbiomen. \newline

De gepresenteerde software verschaft nieuwe strategieën voor de analyse van microbiële netwerken met associates, die niet aannemen dat deze netwerken weergaves zijn van netwerken met interacties. Daarnaast kunnen ze alternatieve bronnen van data integreren, waardoor ze een systeem-gebaseerde aanpak ondersteunen die bij zal dragen aan een betere kennis van de dynamica van microbiële samenlevingen.

Datum:9 okt 2017 →  26 okt 2021
Trefwoorden:microbiome, microbial ecology, metagenomics, networks
Disciplines:Engineering van biomaterialen, Biologische systeemtechnologie, Biomateriaal engineering, Biomechanische ingenieurswetenschappen, Andere (bio)medische ingenieurswetenschappen, Milieu ingenieurswetenschappen en biotechnologie, Industriële biotechnologie, Andere biotechnologie, bio-en biosysteem ingenieurswetenschappen, Microbiologie, Systeembiologie, Laboratoriumgeneeskunde, Immunologie
Project type:PhD project