Het “Visibilis” project loopt nu bijna vijf maanden en er is al een enorme hoeveelheid aan data verzameld. In de vorige blog “De sensorkast geopend” hebben we kunnen zien welk type sensoren er in het project zijn meegenomen. Deze blog gaat over de kalibratie (en validatie) van de verschillende sensoren tegen de officiële fijnstof analyzer: de BAM1020. Informatie over de BAM1020 kun je hier vinden. Op lokatie DCMR Berghaven is een BAM1020 specifiek voor PM2.5 en specifiek voor PM10 beschikbaar. Middels kalibratie en validatie kunnen we onderzoeken in hoeverre de goedkope sensor ingezet kan worden om betrouwbare en nauwkeurige fijnstofconcentraties te kunnen meten. Bij de kalibratie zal tevens de invloed van de relatieve luchtvochtigheid (RH%) en temperatuur (T) worden meegenomen, omdat lasersensoren hier gevoelig voor zijn.
Inhoud
- Data Exploratie
- Kalibratie & Validatie
Data Exploratie
Alle gegevens van de sensoren inclusief de data van de BAM1020 zijn ondergebracht in een database. Het opbouwen van de database inclusief de kalibratie en validatie van de modellen is uitgevoerd met de modelleringsoftware “The Unscrambler” van CAMO. Het onderzoek is gestart met PM2.5 en zal in geval van succes verder uitgebreid worden met PM10. Op dit moment bevat de database de gemiddelde uurwaarden van de periode 16 mei t/m 9 september (N=2803). De volgende sensoren zijn bij het onderzoek betrokken: PMSA003, SDS011, Dylos DC1100 en de BME280 (meteo).
In grafiek 1 is de fijnstofsensor data te zien van de gehele periode. Voor het gemak is de output van de Dylos DC1100 (deeltjes/0.01 cubic foot) gedeeld door een volgens de leverancier opgegeven factor 250 om de waarden in dezelfde orde van grootte te krijgen.
Als we inzoomen op een gedeelte van grafiek 1, krijgen we grafiek 2 te zien. Duidelijk is dat de sensoren t.o.v elkaar en t.o.v de BAM1020 een verschillende gevoeligheid laten zien en dat deze ook afhankelijk is van het niveau.
We kunnen ook naar de correlatie kijken tussen de sensoren onderling, maar ook tussen de sensoren en de BAM1020. De correlatie met de BAM1020 is erg interessant, omdat we graag willen weten hoe betrouwbaar de sensor is.
Een voorbeeld van deze correlatie van een sensor met de BAM1020 is weergegeven in grafiek 3.
De witte lijn is de “target line”, de ideale lineaire correlatie waarvoor geldt Y=X en de blauwe lijn is de regressielijn volgens Y=aX+B. Duidelijk is te zien dat de correlatie een behoorlijke fout vertoond (RMSED=11.2 µg/m3) en dat er ook flinke uitbijters zijn. De output van de PMSA003 is circa twee maal die van de BAM1020 (dit is de “slope”=a=1.90) en de asafsnede op de Y-as = -2.4 µg/m3 (B). De lineaire regressiefunctie wordt dan:
PM2.5_PMSA003 (µg/m3) = 1.90*PM2.5_BAM1020 – 2.4
Het is de moeite waard te onderzoeken of de correlatie tussen de sensor en de BAM1020 verbeterd kan worden als we de invloed van RH% en T erbij betrekken. Tijdens de gekozen meetperiode was de variatie in RH% tussen circa 10% en 70% en de variatie in T tussen circa 15°C en 50°C. In grafiek 4 zijn RH% en T uitgezet tegen de tijd. Duidelijk is het dagritme waarneembaar als een soort sinusgolf in de tijd.
Kalibratie & Validatie
Voor de kalibratie van de sensor tegen de BAM1020 is aangenomen, dat de BAM1020 de juiste waarde geeft. Tevens is aangenomen, dat de invloed van RH% en T op de sensor waarde een lineair verband vertoond. Dit blijkt ook uit diverse publicaties van universiteiten. Voor de kalibratie is gekozen voor het type MLR en dat staat voor Multiple Linear Regression. Het MLR model ziet er dan als volgt uit:
PM2.5_BAM1020 = constante + a*PM2.5_sensor + b*RH% + c*T
a, b en c zijn de regressiecoëfficiënten en kunnen negatief of positief zijn. De constante kan een negatief of positief getal zijn. De grootte van a, b en c geeft aan hoe zwaar de variabele meetelt in het model. Middels het MLR model wordt dus een voorspelling gemaakt voor de BAM1020, met bijbehorende fout en dit model wordt apart voor elke sensor ontwikkeld. De waarde voor RH% en T wordt door de BME280 geleverd. Na de kalibratie wordt het model gevalideerd met onafhankelijke uurwaarden. De uurwaarden gebruikt voor de validatie zijn namelijk niet gebruikt voor de kalibratie. Middels de validatie wordt de robuustheid van het model onderzocht.
De resultaten van de kalibratie en validatie zijn weergegeven in tabel 1.
De resultaten van de PMSA003 zijn de beste. Door storingen van de PMSA003 (insect) en Dylos (communicatie) zijn hiervoor minder uurwaarden beschikbaar geweest. De output waarden gebruikt in de MLR zijn (µg/m3) voor de PMSA003 en SDS011 en (deeltjes/0.01 cubic foot) voor de Dylos DC1100.
- Slope is de helling van het model, ideaal is waarde 1.0
- Offset is de asafsnede op de Y-as, ideaal is waarde 0.0
- R² is de correlatiecoëfficiënt, ideaal is waarde 1.0
- De fout is de nauwkeurigheid van het model
Hoe ziet dit er nu grafisch uit? Als voorbeeld is de PMSA003 genomen. In grafiek 5 is de kalibratie en in grafiek 6 de validatie weergegeven.
In deze grafieken zie je een witte en blauwe lijn. De witte lijn is de “target line” en de blauwe lijn is de regressielijn. Op de X-as staat de referentiewaarde van de BAM1020 en op de Y-as staat de voorspelde waarde met het model.
De PMSA003 bezit de unieke mogelijkheid, dat naast de massaconcentratie (µg/m3) ook de deeltjesconcentraties uitgestuurd worden. In de volgende blog gaan we onderzoeken of het model verder is te verbeteren door gebruik te maken van deze deeltjes. Verder gaan we het model toepassen op de sensordata en kunnen we zien hoe dicht we in de buurt van de BAM1020 uitkomen. De uitkomst is verrassend! Maar daar in de volgende blog meer over! 🙂