< Terug naar vorige pagina

Project

Deep Learning beeldverwerking voor gewasbeheer

Deep learning (DL) is een deelgebied van machine learning waarbij algoritmen worden gemodelleerd om de menselijke logica te imiteren. Tot de belangrijkste toepassingsgebieden van DL behoren computer vision en natuurlijke taalverwerking, die van invloed zijn op ons dagelijks leven wanneer we toegang krijgen tot onze telefoon via gezichtsherkenningsautorisatie, interactie hebben met de chatbot van een bedrijf of ondersteuning krijgen van een virtuele assistent zoals Alexa. Twee keerpunten in het technologietijdperk verklaren het huidige succes van DL: nooit eerder geziene rekenkracht en nooit eerder geziene beschikbaarheid van gegevens. Helaas zijn dit tegelijkertijd meteen ook de belangrijkste  beperkingen in toegepaste DL. Als er geen grote, gelabelde datasets voorhanden zijn, zoals in landbouwtoepassingen vaak het geval is, zal een standaard DL algoritme niet optimaal werken. Om dit te ondervangen, is transfer learning de standaardstrategie geworden. Hierin wordt de kennis aangeleerd in een bepaalde situatie (bron), toegepast in een nieuwe situatie (doel). De overeenkomst tussen de bron- en doelgegevens beïnvloedt echter de mate van kennisoverdracht en daarmee de vereiste omvang en kwaliteit van de trainingsgegevens in het doeldomein.

Dit proefschrift beoogt het toepassen van DL modellen, ondanks de gekende gegevensafhankelijkheid, op proximal en remote sensing data in een immer variërend landbouwkader. Meer specifiek is het streefdoel het creëren van boom- en fruitdetectiemodellen met een beperkte hoeveelheid aan handmatig gelabelde gegevens. Enkele uitdagingen intrinsiek aan DL toegepast op remote (incl. proximal)  sensing beelden zijn (i) ruis, (ii) ruimtelijke resolutie en (iii) geen gelabelde data. Om met een beperkte inspanning een grote gelabelde dataset te genereren, hebben we strategieën geïmplementeerd die alternatieven bieden voor DL-onderzoekers en eindgebruikers om beperkingen door  gegevensafhankelijkheid, met name in landbouwtoepassingen, te overwinnen.

Ten eerste hebben we de ruwe data aangepakt door een benadering van transfer learning, die tweetrapstraining wordt genoemd. Hiervoor hebben we detectiemodellen getraind met de onbewerkte, ruwe gegevens en deze nadien verfijnd met de handmatig gelabelde gegevens. Voor onze casestudy, de regionale inventaris van Phoenix-palmen in de Spaanse provincie Alicante, hadden we 5104 handmatige annotaties naast 116.330 ruwe annotaties. Deze laatsten zijn aangemaakt met behulp van puntlocaties van Phoenix-palmen en hoge resolutie RGB-luchtfoto’s van de Canarische Eilanden, een andere Spaanse regio. Deze gegevens bevatten ruis, aangezien (i) afbeeldingen een andere ruimtelijke resolutie hadden, omdat palmen in andere landschappen voorkwamen in de twee regio’s, (ii) minder dan 70% van de punten overlapten met een palmkroon, en (iii) annotatieboxen een standaardformaat hadden in plaats van aangepast aan de omvang van de kruin. Objectdetectie modellen die volgens deze aanpak waren getraind, behaalden tussen de 10% en 14,7% winst in hun gemiddelde precisie in vergelijking met modellen die enkel getraind waren met de handmatig gelabelde gegevens. Dit komt omdat de pre-trainingsstap de verfijningsstap helpt om zich beter aan te passen aan de visualisatie van palmen vanuit een bovenaanzicht. Met andere woorden, de gelijkenis tussen de brondata, de annotaties van de Canarische Eilanden, en de doeldata, de annotaties van Alicante, had een positieve invloed op de detectiecapaciteit van de modellen. Dit is een belangrijk resultaat, vooral op het gebied van teledetectie, omdat openbaar beschikbare DL-modellen meestal worden getraind met grote datasets van natuurlijke beelden waarbij objecten verschijnen vanuit een zijwaarts perspectief, niet vanuit een bovenaanzicht. 

Vervolgens verlegden we de focus van het onderzoek van individuele objectdetectie naar het schatten van objectdensiteiten en het integreren van multimodale data (radar- en optische beelden), waar we opnieuw geconfronteerd werden met ruizige data. Een nieuwe DL-architectuur werd geïmplementeerd die de densiteit van objecten, die kleiner waren dan de pixelresolutie, schatte en deze aanpaste voor multimodale gegevensintegratie. In navolging van de vorige casestudy, was het doel om een regionale palminventaris op te stellen, onafhankelijk van de beschikbaarheid van hoge resolutie RGB luchtbeelden, maar in dit geval gebaseerd op vrij beschikbare satellietbeelden met slechts medium resolutie. De reden hiervoor is dat deze laatsten gratis publiekelijk beschikbaar zijn en werelddekkend zijn met een hoge temporele frequentie. Een dergelijke verandering in beeldresolutie betekende echter dat palmkruinen veranderden van een herkenbaar object met een ruimtelijke resolutie van 25 cm naar een object in een pixel met een ruimtelijke resolutie van 10 m. De DL architectuur gaat met deze uitdaging om door het objectdetectievraagstuk op te vatten als een dichtheidsschatting en semantische segmentatie, waardoor we een kaart verkrijgen met het geschatte aantal objecten per pixel en het voorspelde klasselabel per pixel. Ondersteund door de regionale palmboomkaart van de eerste studie, die als ruisig wordt beschouwd omdat andere boomsoorten verkeerd werden gelabeld als Phoenix-palmen, creëerden we een grote, gelabelde dataset met 462.500 annotaties. We hebben ook een kleine, gelabelde dataset gemaakt met 19.650 handmatige annotaties. Deze twee datasets werden gebruikt in de tweestapstraining methodiek van voorheen. Modellen voor dichtheidsschatting die volgens deze benadering zijn getraind, vertoonden een  12,9% tot 27,4% hogere nauwkeurigheid in vergelijking met modellen die beperkt waren tot het gebruik van alleen de handmatig gelabelde gegevens. Daarom veronderstellen we dat, in het algemeen, de tweestapstraininggunstig kan zijn voor andere DL en remote sensing toepassingen die verder gaan dan objectdetectie. 

Ten slotte hebben we getracht om automatische data te labelen. Voor deze benadering hebben we een ongesuperviseerd en gesuperviseerd objectdetectie algoritme samengevoegd. Hier was het studiedoel het detecteren van peren in boomgaarden. Hoewel er een grotere overeenkomst was tussen onze doeldataset (perenvruchten op de boom van een zijaanzicht) en grote datasets van natural images, merkten we toch een groot verschil door de verschillende toepassingen. Dit beperkte de goede werking van de transfer learning. Gezien de beperkte manueel geannoteerde trainingsgegevens en de grote niet-gelabelde dataset van beschikbare afbeeldingen, was het onze bedoeling om meer doelgegevens te genereren op een automatische wijze. Dit werd bereikt dankzij de objectdetectie- en classificatiealgoritmen op basis van de nieuwste ontwikkelingen op het gebied van ‘self-supervised’  leren en transformatoren. De automatisch gelabelde gegevens worden echter als ruizig beschouwd omdat de kwaliteit ervan wordt aangetast door fouten in de objectdetectie bij het scheiden van overlappende objecten en in de classificatiestap bij het verkeerd labelen van doelobjecten. Op basis van de tweetrapstraining hebben we een model vooraf getraind met de automatisch gelabelde gegevens (121.038 annotaties) en het nadien verfijnd met de handmatig gelabelde gegevens (500 en 1000 annotaties). Ondanks de ruis vertoonden objectdetectiemodellen die volgens deze aanpak waren getraind superieure prestaties met tussen 17,6% en 35,9% hogere gemiddelde precisie in vergelijking met modellen die uitsluitend waren getraind met beperkte handmatige gegevens. Bovendien hadden deze superieure modellen ook een beter generalisatievermogen op ongeziene beelden die met een andere camera-instelling waren gemaakt, met tussen 25,1% en 38,5% meer gemiddelde precisie. We concluderen dat de automatische labeling en de tweetrapstraining geschikte procedures zijn, zelfs voor toepassingen van proximale detectie, waarbij de gelijkenis van bron en doelgegevens niet essentieel lijkt. 

Met dit proefschrift dragen we bij aan het versnellen van de acceptatie van op DL gebaseerde oplossingen in de landbouw. Door enkele van de barrières aan te pakken die DL-onderzoekers en eindgebruikers kunnen tegenkomen bij het werken met proximal en remote sensing gegevens, met name voor ruizige, beperkte resolutie en niet-gelabelde gegevens, demonstreren we strategieën om de afhankelijkheid van grootschalige en hoogwaardige datasets te verminderen.

Datum:21 aug 2020 →  15 mrt 2023
Trefwoorden:Deep Learning, Agriculture, Remote Sensing, Artificial Intelligence
Disciplines:Machine learning en besluitvorming, Computervisie, Remote sensing, Fotogrammetrie en remote sensing, Bescherming van landbouwgewassen, Landbouw, land- en landbouwbedrijfsbeheer niet elders geclassificeerd
Project type:PhD project