Project

Machine learning technieken voor het schatten van gewasarealen op subpixel niveau.

Accurate voorspellingen van lokale en regionale gewasproducties zijn belangrijk voor de prijszetting van landbouwproducten, zowel door aanbieders als inkopers. Ze hebben bovendien een grote waarde voor (lokale) overheden bij het anticiperen op mogelijke voedseltekorten. Teledetectie m.b.v. satellieten is een eerder recente, maar reeds ingeburgerde technologie voor het voorspellen van landbouwproductie op grote (ruimtelijke) schaal omdat satellietsensoren ruimtelijk expliciete informatie aanleveren over grote gebieden met een relatief hoge temporele resolutie.

Van de momenteel beschikbare satelliet sensoren zijn degene die een hoge temporele resolutie combineren met een lage ruimtelijke resolutie (bv. MODIS, SPOT-VGT) het meest geschikt voor het voorspellen van gewasproductie. De eigenheid van de aangeleverde dataproducten gecombineerd met de uitgestrekte studiegebieden waarop deze data voornamelijk worden toegepast, zorgen er echter voor dat de gebruikte voorspellingsmodellen aan meerdere specifieke voorwaarden moeten voldoen:

i. Om de mogelijkheden voor opschaling naar grote studiegebieden (grote aantallen pixels) te maximaliseren, krijgen algoritmes met een hoge graad van automatisering de voorkeur;

ii. De geselecteerde algoritmes moeten een hoge ruisgraad en een beperkt aantal referentieobservaties aankunnen;

iii. De lage ruimtelijke resolutie van de data vraagt om het gebruik van sub-pixel strategieën. Het beperkt aantal referentiepixels met een zuivere bedekking maakt technieken die deze referentiepixels (endmembers) vereisen minder geschikt.

Van machine learning technieken is reeds indicatief aangetoond dat ze aan de drie bovenstaande voorwaarden voldoen. Het hoofddoel van dit onderzoek was deze indicaties verder wetenschappelijk te onderbouwen om zo een inschatting te maken van het werkelijke potentieel van deze machine learning methoden voor het voorspellen van gewasproductie op een regionale schaal. Totale gewasproductie (ton) is de som over alle landeenheden van het product van de areaal van de landeenheid en de bijhorende gewasopbrengst. In dit onderzoek werd het areaal bepaald op basis van sub-pixel landgebruiksclassificatie. Vier specifieke onderdelen van de sub-pixel classificatieketen werden uitgelicht en aan een gedetailleerde studie onderworpen.

Het eerste onderzochte onderdeel was het selecteren van de meest geschikte classificatiemethode. Zes machine learning technieken werden met elkaar vergeleken: het meerlagig perceptron, “support vector regression”, “least-squares support vector machine”, “bagged regression trees”, “random forest” en “boosted regression trees”. Bovenstaande technieken werden geëvalueerd met betrekking tot zes criteria die hun accuraatheid, hun noden naar meta-parameterisatie, hun robuustheid en hun vereisten m.b.t. referentiedata weerspiegelen. Ze werden ook gerangschikt op basis van deze criteria, volgens drie scenario’s die verschillen in het relatieve belang van de criteria. Deze analyse leverde geen duidelijke winnaar op. Geen enkele methode was superieur in alle drie de scenario’s. Wanneer echter de verwerkingstijd en het aantal referentiedata geen rol speelden, dan presteerden de support vector machines duidelijk beter dan hun concurrenten.

Verschillende studies omtrent sub-pixel landgebruiksclassificatie stelden dat geschatte landgebruiksfracties slechts een duidelijke fysische betekenis hebben als ze niet negatief zijn en als de som van de fracties binnen elke pixel gelijk is aan 100%. Het tweede onderdeel van de sub-pixel classificatieketen dat in dit onderzoek werd bestudeerd was het effect van het expliciet opleggen van deze beperkingen aan de geschatte fracties. Onze resultaten geven aan dat alle methoden lichtjes verbeteren bij toepassing van deze expliciete regels, maar dat de winst in accuraatheid in de meeste gevallen verwaarloosbaar klein is, zowel wanneer een embedded als een post-processing benadering gevolgd wordt.

Wanneer het aantal inputvariabelen van een model toeneemt, gaat dit meestal gepaard met een toename in accuraatheid tot het optimum bereikt wordt. Voorbij dit optimum neemt de accuraatheid niet meer toe, in veel gevallen is er zelfs een terugval. Dit fenomeen wordt courant aangeduid als de ‘vloek van de dimensionaliteit’. Dit fenomeen werd behandeld in het derde deel van dit onderzoek. Verschillende methoden voor het selecteren van de meest relevante inputvariabelen werden vergeleken in combinatie met twee machine learning technieken voor het schatten van het areaal maïs en grasland. Voor elke selectiemethode werd een eenvoudige implementatie vergeleken met een iteratieve methode, die ook de interacties tussen de variabelen in rekening brengt. Onze resultaten gaven aan dat selectieprocedures ingebouwd in de voorspellingsmodellen beter presteren dan filtertechnieken die niet gebonden zijn aan een voorspellingsmodel. Bovendien presteerden, zoals verwacht, de iteratieve procedures beter dan de eenvoudige niet iteratieve.

Voor het valideren van sub-pixel classificaties bestaat momenteel geen standaardtechniek. Vroegere pogingen om de harde confusiematrix uit te breiden voor toepassing in sub-pixel classificatie raakten niet algemeen aanvaard, omdat er geen consensus bestond over de berekening van de elementen van de matrix die niet tot de eerste diagonaal behoren, de zogenaamde confusies. De ‘STATCON’ matrix, die in dit onderzoek wordt gepresenteerd, berekent de confusies niet op basis van de veelgebruikte Bayesiaanse operatoren. Hij maakt daarentegen gebruik van de lineaire relatie tussen de over- en onderschatting van de areaalfracties om de confusie tussen de klassen te kwantificeren. Gebaseerd op een eerste toepassing met artificiële datasets, kunnen we stellen dat STATCON een veelbelovend alternatief is voor de reeds bestaande methoden.

De vier bovenvermelde onderdelen waren allen gerelateerd aan de taak van gewasareaalschatting. Het laatste deel van dit onderzoek ging het potentieel na van twee machine learning methoden gebaseerd op beslissingsbomen voor een (vroegtijdige) voorspelling van tarweopbrengsten op districtniveau. Onze modellen bleken operationeel inzetbaar en in staat tot bruikbare voorspellingen vroeg in het groeiseizoen. De accuraatheid verbeterde met het toevoegen van de inputgegevens uit het einde van het seizoen.

Het geheel van de resultaten uit dit onderzoek toont aan dat machine learning algoritmes in staat zijn om zowel gewasopbrengst als gewasarealen met goede accuraatheid in te schatten vertrekkende van tijdseries van satellietbeelden met lage ruimtelijke resolutie, vooral op het ruimtelijk niveau van een groep van pixels zoals gemeenten in Vlaanderen of districten in China. Ook op het niveau van de individuele pixels werden accuraatheden bekomen vergelijkbaar met die in de literatuur beschreven voor parametrische modellen. Een onderbouwde selectie van het voorspellingsmodel en van de inputvariabelen bleek cruciaal voor een hoge accuraatheid. De nieuw ontwikkelde STATCON matrix toonde bovendien zijn waarde bij het identificeren van de aard en omvang van de confusies tussen de landgebruiksklassen in een sub-pixel setting. Deze informatie is ongetwijfeld één van de sleutels om voorspellingsmodellen verder te verbeteren.

Datum:1 okt 2009 → 7 dec 2015

Trefwoorden:Optimization, Tree-based classifiers, Machine learning, Area estimation, Sub-pixel classification, Artificial neural networks

Disciplines:Fysische geografie en omgevingsgeowetenschappen, Communicatietechnologie, Geomatische ingenieurswetenschappen, Productie van landbouwdieren, Productie van landbouwgewassen, Landbouw, land- en landbouwbedrijfsbeheer, Andere landbouw, bosbouw, visserij en aanverwante wetenschappen

Project type:PhD project

Project

Machine learning technieken voor het schatten van gewasarealen op subpixel niveau.

Onderzoekers

Project partners

Financiering

Publicaties