Miten luotettavaa ja kattavaa luontotieto on?

Kaikki luonnosta kerätty tieto sisältää epävarmuutta. Epävarmuudesta huolimatta luontotietoa tuottavat mittaukset ja seurannat antavat arvokasta tietoa esimerkiksi eliöryhmän, ekosysteemin tai luontotyypin tilasta. Luontotietoon pohjautuvassa päätöksenteossa on tärkeää ottaa huomioon tiedon epävarmuus ja soveltuvuus kuhunkin käyttötarkoitukseen.

Kuinka tiedon luotettavuus voidaan ottaa huomioon luontotiedon käytössä?

Luontotiedon epävarmuuden lähteet ja ilmenemismuodot vaihtelevat tiedon alkuperästä ja tyypistä riippuen. Epävarmuus tarkoittaa käytännössä yleensä sitä, että mitattavaa asiaa ei tiedetä ihan tarkasti, mutta tieto on keskimäärin oikein. Kun mitatun luontotiedon perusteella tehdään päätelmiä ja suosituksia, voidaan epävarmuutta arvioida ja ottaa huomioon erilaisilla menetelmillä. Eri tilanteisiin parhaiten soveltuvat menetelmät riippuvat tiedon ominaisuuksista. Systemaattinen virhe on luonteeltaan erilaista kuin edellä kuvattu epävarmuus. Siinä mitattu tieto on järjestelmällisesti vinoutunutta ja siksi tällaisen tiedon käyttö johtopäätösten tukena on hankalaa. Laadukkaan luontotiedon tuottamisen olennainen osa onkin erilaisten epävarmuustekijöiden arviointi ja raportointi.

Luontotiedon käyttäjän on huomioitava seuraavia asioita:

Mitatun tiedon epävarmuus voidaan ilmaista lukuarvona tai laadullisena tietona.
Satunnaisotannalla kerättyjen havaintojen tulee perustua hyvin suunniteltuun otokseen, muuten vaarana on systemaattinen virhe.
Karttapohjaisten havaintojen käytössä on huomioitava, onko tietoa ainoastaan niistä paikoista, joissa mitattavasta kohteesta on havaintoja, vai onko mukana myös tietoa paikoista, joissa kohdetta ei ole havaittu.
Mitattua tietoa saadaan useimmiten vain tietyiltä hetkiltä ja tietyistä paikoista – ajallisen ja paikallisen tiedon puuttumista voidaan kuitenkin paikata mallinnuksen avulla.
Mallinnetun luontotiedon tarkkuuteen vaikuttaa mallinnusmenetelmiin liittyvä epävarmuus.

Epävarmuuden arviointi

Luonnontieteissä määrällisen tiedon luotettavuutta arvioidaan määrittämällä tulosten epävarmuudelle vaihteluväli. Epävarmuutta voidaan usein vähentää lisäämällä mittauspisteiden määrää, tekemällä mittausten laadunvarmistusta tai parantamalla mallinnusta. Silti täyteen varmuuteen tai tarkkuuteen ei yleensä ole edes mahdollista päästä. Epävarmuuden määrää voidaan joissain tapauksissa ilmaista myös laadullisena arviona, jos tarkkaa numeraalista arvoa ei pystytä tuottamaan.

Esimerkki 1. – Luottamusväli

Useille Luonnontila-verkkopalvelussa esiteltäville mittaviin seuranta-aineistoihin perustuville indikaattoreille raportoidaan 95 prosentin luottamusväli. Tämä tarkoittaa, että indikaattorin yleistettävä arvo on 95 prosentin todennäköisyydellä kyseisen luottamusvälin sisällä. Esimerkiksi humuspitoisten järvien kemiallinen hapenkulutus(siirryt toiseen palveluun) oli 95 prosentin todennäköisyydellä välillä 12,6–10,1 mg/l vuonna 2023. Indikaattoreille arvioidaan myös keskimääräinen vuosittainen kehityssuunta ja -nopeus, ja tälle yhdeksänkymmenen prosentin luottamusväli, jota käytetään indikaattorin kehityksen luokitteluun(siirryt toiseen palveluun).

Otos vaikuttaa havaintojen luotettavuuteen

Luontohavaintojen seurantaa voidaan tehdä systemaattisesti, hyvin suunnitellun otannan ja riittävän suuren otoksen perusteella. Tällaisesta seurannasta saatavia havaintoja voidaan pitää kattavina ja edustavina.

Otos, eli havainnointiyksiköiden valinta, voidaan tehdä satunnaisvalinnan avulla siten, että havaintopisteet kuvastavat mitattavan populaation esiintymisalueiden ominaisuuksia kattavasti. Jos otoksessa suositaan jotain havainnointiyksikön tyyppiä tai se suljetaan otoksen ulkopuolelle, voi havaintoihin tulla vinoumaa, joka vähentää tulosten luotettavuutta. Havaintopisteitä tulisi myös olla riittävästi suhteessa havaittavan lajin esiintymiin. Pienen otoskoon myötä havainnoista tehtävien johtopäätösten epävarmuus kasvaa, kun taas otoskokoa kasvattamalla se pienenee.

Toinen usein käytetty tapa kerätä luontohavaintoja on systemaattinen otanta, jossa havainnoitavasta luontopiirteestä kerätään alueellisesti kattavia otoksia sijoittamalla tutkimuspisteet tai -linjat järjestelmällisesti tietyn kokoisina tai -pituisina, ja aina tietylle etäisyydelle toisistaan.

Esimerkki 2. – Linjalaskenta

Pesimälinnuston muutosten seuranta perustuu pääosin linjalaskentaan, joka toteutetaan systemaattisena otantana. Yleensä suorakaiteen muotoiset kuuden kilometrin pituiset pysyvät linjat on sijoitettu noin 25 kilometrin välein läpi Suomen, ja näitä linjoja on yhteensä 566. Linjat toistetaan 2-3 vuoden välein siten, että vuosittain lasketaan 200-300 linjaa. Linjojen perusteella voidaan laskea kullekin lajille vuotuinen pesimäaikainen tiheys ja kannanmuutos halutulla aikavälillä. Kannanmuutosindeksit voidaan kuitenkin laskea vain lajeille, joista kertyy laskennoissa riittävästi havaintoaineistoa. Harvalukuisille lajeille, kuten monille petolinnuille, aineisto jää näissä laskennoissa liian pieneksi, joten näille lajeille on omat lajikohtaiset seurantansa.

Esimerkki 3. – Lajiryhmien kirjo

Joidenkin lajiryhmien kirjo on niin laaja, että kokonaiskuvan saaminen niistä on lajistoseurannoissa huomattavan haasteellista. Päiväperhosten seuranta ja havainnointi on Suomessa järjestetty esimerkillisen hyvin ja se sisältää kansalaishavaintojen avulla kertyvää piste- tai aluekohtaista esiintymistietoa, järjestelmällisen ohjeistuksen kautta kerättyä linjalaskentatietoa ja tietyiltä tutkimusruuduilta kerättyjä lajistoaineistoja, eli kaiken kaikkiaan arvokasta lajiston seuranta-aineistoa. Päiväperhosten ohella on kuitenkin laaja joukko mikroperhoslajeja, jotka ovat haasteellisia tunnistettavaksi ja usein myös vaikeammin havaittavia kuin päiväperhoslajit. Mikroperhosiin erikoistuneiden harrastajien vähäisemmän määrän johdosta niiden seurantatiedot sisältävät vaihtelevan kokoisia alueellisia puutteita ja niiden kannanmuutoksien tuntemus on epävarmempaa kuin päiväperhosten.

Lajistoseurannoissa tehtyjen havaintojen kirjaaminen sekä myös havaintojen puuttumisen kirjaaminen vaikuttavat mittauksista johdetun tiedon kattavuuteen. Systemaattisesti tehdyissä seurannoissa saadaan tietoa siitä, onko jotain lajia otantapisteissä tai -koealoilla tai puuttuuko se. Näin saadaan arvokasta tietoa myös kohteista, joista tietyt lajit puuttuvat. Monissa kansalaishavaintoihin perustuvissa seurannoissa tietoa saadaan vain niistä eliölajeista jotka on havaittu. Tällöin ei saada tietoa niistä alueista, joissa lajia ei ole havaittu, mikä pitää huomioida kerättyjen tietojen tulkinnassa. Jos sitä ei huomioida, vaarana on seuranta-aineistoista tehtyjen laskelmien ja johtopäätösten vinoutuminen mikä voi johtaa systemaattisiin yli- tai aliarvioihin.

Esimerkki 4. – Mallinnus

Kun pelkkiä lajien positiivisia läsnäolohavaintoja sisältäviä seuranta-aineistoja käytetään mallinnuksen lähtökohtana, tulee mallinnusmenetelmän soveltamisessa huomioida tämä rajoite. Yksi menetelmä, joka osaa käyttää pelkkiä positiivisia lajihavaintoja, on Maxent. Tämän menetelmän käytössä on kuitenkin huomioitava toinen epävarmuustekijä eli esiintymähavaintojen alueelliset vinoutumat, joiden korjaaminen vaatii esiintymien spatiaalisia painotuksia korjaavien muuttujien käyttöä. Yksi esimerkiksi tästä on Suomessa kuudelle metsien indikaattorilintulajille tehdyt levinneisyysmallit. Ne perustuvat havaintoihin näiden lajien pesistä, joista oli rengastettu poikasia sekä puuston rakenne- ja maanpeitetietoihin. Näissä malleissa pesäaineistojen alueelliset vinoumat korjattiin lajien pesäpaikkojen perusteella lasketun korjauskertoimen avulla.

Lajiston runsaus ja pohjatieto lajiston sijainnista vaikuttavat havaintojen määrään. Jos sijainnista ei ole riittävää tietoa, tai laji on todella harvinainen, siitä ei välttämättä saada kuin vähän havaintoja. Tämä lisää tulosten epävarmuutta. Kuitenkin jotkut harvinaiset eliöryhmät tai luontotyypit sekä niiden esiintymisen sijainti tunnetaan hyvin, jolloin jo pienellä otoksella voidaan saada tarkkaa tietoa kulloisestakin tilanteesta. Sen sijaan huonommin tunnettujen, harvinaisten eliöryhmien kohdalla pieni otos voi tarkoittaa suurta epävarmuutta.

Havaintojen ajallinen ja alueellinen kattavuus

Havainnot kattavat tyypillisesti vain osan tutkitun alueen pinta-alasta. Lisäksi luontohavainnot eivät normaalisti muodosta ajallisesti jatkuvaa yhtenäistä sarjaa, vaan niitä kertyy yksittäisistä ajankohdista.

Monia eliölajeja ja -ryhmiä seurataankin tämän kaltaisten sijainniltaan ja ajankohdiltaan rajallisten otantojen perusteella. Näistä otoksista voidaan kuitenkin laskea tilastollisia tunnuslukuja, kuten havaintomäärien keskiarvoja jollain alueella, ja näiden tunnuslukujen ajallista kehitystä voidaan seurata. Keskiarvon lisäksi otoksesta voidaan laskea sen epävarmuus. Keskiarvon epävarmuus pienenee yleensä otoskoon kasvaessa.

Jos havaintoja on vain vähän, voi johtopäätösten tekeminen olla vaikeaa suuren epävarmuuden takia. Tällöin esimerkiksi peräkkäisinä ajanhetkinä tehtyjen havaintojen keskiarvojen välinen isokin muutos voi olla pientä suhteessa epävarmuuteen. Silloin ei voida varmuudella sanoa onko muutosta todella tapahtunut.

Eliöryhmien tai ekosysteemien yksittäisten, alueellisesti satunnaisten havaintojen avulla voidaan tietyissä tapauksissa tuottaa arvioita niiden tilasta laajoillekin alueille. Jos tietyn eliöryhmän esiintymisen ekologisia piirteitä, populaatioiden dynamiikkaa ja vuorovaikutussuhteita pystytään mallintamaan matemaattisesti, voidaan saada myös ajallisesti kattavia arvioita sen muutoksista. Mallinnustulosten osalta on tärkeää huomioida myös niiden epävarmuus.

Esimerkki 5. – Kaukokartoitus

Kaukokartoitukseen kohdistuu suuria toiveita luontotiedon kattavuuden parantamisesta. Erityisesti ilmasta käsin eli lentokoneella tai drooneilla kerätystä kuva-, spektri- ja laserkeilausaineistoista onkin mahdollista määrittää monille lajeille tärkeitä elinympäristön rakennepiirteitä kuten kasvillisuuden korkeutta, puiden kokoa ja puulajistoa. Suomen ympäristökeskuksen ja Itä-Suomen yliopiston 2023 julkaistussa tutkimuksessa havaittiin, että tällaisia laajempaa elinympäristöä kuvaavia kaukokartoitusmuuttujia hyödyntävät mallit ennustivat metsähaavan rungolla kasvavaa jäkälälajistoa paremmin kuin yksittäisten haapapuiden maastossa mitattuihin ominaisuuksiin perustuvat mallit. Kaukokartoituksella voidaankin kustannustehokkaasti kartoittaa lajistoltaan potentiaalisesti monimuotoisia alueita, mutta varmistetut maastohavainnot ovat edelleen välttämättömiä lajiston todentamiseksi ja mallien opetusaineistoksi.

Maastohavainnoinnin ja -mittauksien epävarmuudet

Epävarmuutta mittauksiin tulee esimerkiksi mittausmenetelmien epätarkkuudesta, mitattavan kohteen ominaispiirteistä kuten myös tulosten pyöristysvirheistä. Lisäksi erityisesti maastomittauksiin voi sisältyä epävarmuutta siitä, onko koko havaintoalueen eliöryhmän eliöt havaittu. Havaintojen määrä voi vaihdella sääolosuhteiden, kellonajan ja muiden ympäristötekijöiden mukaan.

Joidenkin lajien osalta mittaustulokset voivat olla hyvinkin tarkkoja (esimerkiksi suurten, hyvin näkyvillä olevien ja harvalukuisten nisäkkäiden lukumäärä), kun taas pienten tai laajuudeltaan vaihtelevien, kenties piilottelevien kohteiden (mikrobit, pienikokoiset lajit) määrän tai esiintymisalan arviointi on jo itsessään epävarmaa. Luontotyyppien tunnistaminen maastossa voi olla epävarmaa etenkin pienikokoisilla esiintymillä tai voimakasta, moniulotteista ekologista vaihtelua sisältävillä paikoilla; sama kohta voi saada eri luontokartoittajilta erilaiset määritelmät.

Esimerkki 6. – Koealat

Pitkäaikaista kasvillisuuden seurantaa varten perustetaan usein kiinteät koealat/ruudut. Seuranta tehdään vuosittain fenologisesti samaan aikaan, sillä parinkin viikon ero voi näkyä joidenkin lyhytikäisten lajien puuttumisena. Kasvien esiintymisessä on myös luontaista vuosien välistä vaihtelua. Peittävyyksien arviointi on aina subjektiivistä ja arvioijien välillä on eroja.

Uudet DNA-emäsjärjestykseen tai automaattiseen kuvan- tai äänentunnistukseen perustuvat lajien havaintomenetelmät eivät ole riippuvaisia havainnoijan lajintuntemuksesta ja ovat siten perinteistä havainnointia objektiivisempia ja toistettavampia. Myös tällaisiin havaintoihin liittyy kuitenkin epävarmuutta. Tärkeimpiä epävarmuuden lähteitä näillä ns. koneellisilla havaintomenetelmillä ovat puutteet vertailuaineiston kuten DNA-sekvenssikirjastojen tai tekoälyalgoritmin opettamisessa käytetyn lintujen ääniaineiston kattavuudessa. Jos harvinainen laji on huonosti edustettu vertailuaineistossa, sen tunnistaminen jää helposti epävarmaksi, varsinkin jos myös lajin sisällä on merkittävää vaihtelua kuten esimerkiksi lintujen äänten tapauksessa. DNA-menetelmien kohdalla havainnon luotettavuuteen vaikuttavat myös lukuisat metodologiset yksityiskohdat aina näytteen säilömisestä DNA:n monistamisessa käytettyihin alukkeisiin. Lisäksi epävarmuutta voi olla ympäristönäytteessä kuten vedessä tai ilmassa havaitun DNA:n alkuperästä. Erityisesti ilmassa ja suurissa joissa DNA voi kulkeutua näytteeseen huomattavan kaukaa. Ilman ja veden virtaukset huomioivaa leviämismallinnusta voidaan hyödyntää mahdollisten lähdealueiden rajaamisessa.

Esimerkki 7. – Mittauskäytännöt

Yhtenäisillä mittauskäytännöillä huolehditaan lajistoseurantojen laadusta. Esimerkiksi pesimäaikaiset lintulaskennat tehdään vain hyvissä sääolosuhteissa varhain aamulla, ja saman alueen laskennat pyritään tekemään vuosittain fenologisesti samaan aikaan. Laskennat tehdään myös alueellisesti hieman eri aikaan, eli Etelä-Suomessa varhemmin kesäkuussa kuin Pohjois-Suomessa, johtuen fenologian eroista maan eri osissa. Myös perhosten linjalaskennoissa tulee noudattaa suositeltuja sääolosuhteita standardoidun aineiston keräämiseksi. Liian viileä tai pilvinen sää johtaa päiväperhosten aktiivisuuden alenemiseen, jolloin kerättyyn aineistoon on vaarana tulla sääolosuhteista johtuvia puutteita.

Esimerkki 8. – Ajankohta

Pitkäaikaista kasvillisuuden seurantaa varten perustetaan tyypillisesti kiinteitä tutkimusaloja. Kasvilajien peittävyyden arvioiminen tuottaa pienikokoisilta aloilta varmemmin tarkempia tuloksia kuin suurikokoisilta, mutta niilläkin on seurantatutkimuksissa kartoittajien vaihtuessa syytä varmistaa, että peittävyysarvioihin ei tule henkilöstä riippuvaa vinoumaa. Suurikokoisilla ruuduilla peittävyyden arviointi voi olla huomattavan haasteellista, jolloin voidaan tehdä lajeille runsausarvioita jakamalla ruutu pieniin osaruutuihin ja laskella lajien esiintymisfrekvenssi niissä. Toinen vaihtoehto on käyttää runsausluokkia. On myös tärkeää tehdä kartoitukset kasvillisuuden fenologian suhteen samaan aikaan, tai vaihtoehtoisesti useamman kerran kasvukauden aikana; lyhytaikaiset kevätkukkijat ja alkukesän lajit voivat näyttää virheellisesti taantuvilta jos tuoreimmat kartoitukset on tehty aiempia myöhempänä ajankohtana.

Mallinnuksen epävarmuus

Laajan alueen paikallisesti kattavassa luontotiedossa osa tiedosta pohjautuu usein mallinnukseen, sillä itse havainnot sijaitsevat vain rajallisessa määrässä havaintopisteitä. Muilta osin alueen paikkatietoa voidaan mallintaa, jos havaintokohde korreloi jonkun, esimerkiksi kaukokartoituksen avulla mitattavan muuttujan kanssa. Itse havaintotieto voi olla myös mallinnuksen tulosta, jos havaintotieto ei ole suoraan muuttuja, jota pystytään mittaamaan.

Esimerkki 9. – Luokitusmalli

Kaukokartoituksella kerättyä tietoa voidaan yhdessä maastossa kerätyn tiedon avulla hyödyntää esimerkiksi maanpeitteen tai luontotyyppien mallintamiseen. Tällöin puhutaan ns. luokittelumallista, jossa mallinnuksen tavoitteena on löytää jokaiselle tutkimusalueen maanpinnan kohteelle, joka voi olla yksittäinen kuvapikseli tai rajattu kuvio, todennäköisin kohdeluokka. Ihannetapauksessa jokaisesta maanpeiteluokasta/luontotyypistä on maastossa kerätty kattava ja edustava referenssiaineisto, joka voidaan jakaa kahteen osaan (esim. 70 % ja 30 %) siten, että toisen osan avulla malli opetetaan ja toinen osa jätetään sivuun luokituksen epävarmuuden arviointia varten. Kun mallin validointiin käytetään aineistoa jota malli ei ole aiemmin nähnyt, saadaan paitsi realistisempi arvio mallin tarkkuudesta, myös arvio miten hyvin luokitusmalli skaalautuu muille aineistoille ja alueille.

Luokitusmallin tarkkuuden arviointia varten käytetään ns. sekaannusmatriisia (eng. confusion matrix), jossa verrataan luokittain mallin ennustamia tuloksia todellisiiin maastohavaintoihin. Luokittelun tarkkuutta voidaan arvioida useiden eri mittarien avulla. Kokonaistarkkuus saadaan oikein luokiteltujen havaintojen suhteesta kaikkien havaintojen lukumäärään, joka ei kuitenkaan anna yksinään totuudenmukaista kuvaa varsinkin jos luokkajakauma on epätasainen. Sekaannusmatriisista voidaan johtaa myös luokkakohtaisia tarkkuusarvoja, jotka antavat syventävää tietoa niistä luokista joiden osalta luokitus on tai ei ole luotettava. Näitä ovat tuottajan tarkkuus (eng. recall) sekä käyttäjän tarkkuus (eng. precision), jotka ottavat huomioon myös väärät positiiviset ja väärät negatiiviset ennusteet. Toisin sanoen tuottajan tarkkuus kertoo todennäköisyyden sille, että todellisuudessa johonkin luokkaan kuuluvat havainnot luokitellaan kuuluvaksi tähän luokkaan, kun puolestaan käyttäjän tarkkuus kertoo todennäköisyyden sille, että havainto kuuluu ennustettuun luokkaansa.

Luontotieto, joka pohjautuu mallinnukseen, sisältää epävarmuuksia useasta eri lähteestä. Mallinnuksen lähtöaineistoon, mallinnuksen parametreihin sekä mallivirheeseen liittyvä epävarmuus näkyvät mallinnustulosten epävarmuutena.

Tulevaisuuden malliennusteiden epävarmuus voi riippua myös ulkoisista tekijöistä, kuten paikallisesta säästä ja maankäytöstä, joista ei ole tarkkaa tietoa. Niiden vaihtelua voidaan kuvata esimerkiksi skenaariomalleilla, joissa on tehty oletuksia ulkoisten tekijöiden muutoksille ja niiden epävarmuuksille.