Tilastollinen ennustaminen

Seppo Pynnönen
Tilastotieteen professori,
Menetelmätieteiden laitos, Vaasan yliopisto

1. Taustaa

Tulevaisuuden ennustaminen on ehkä yksi luonteenomaisimpia piirteitä ihmiselle. On ilmeisesti aina tiedostettu, että henkilö, jolla on kyky ennakoida tulevia tapahtumia edes vähän paremmin kuin muut on huomattavassa etulyöntiasiassa. Vaikka tämä taito antaakin huomattavan edun, ei liene kukaan haluaisi omaavansa sellaista kykyä, että pystyisi täysin ennakoimaan tulevaisuuden. Elämä kävisi tällaisessa tilanteessa kaiketi mahdottomaksi. Niinpä voidaankin myönteisessä hengessä todeta, että tuntematon tulevaisuus ei suinkaan ole kirous vaan mitä suurimmassa määrin elinehto.

Olkoonkin näin, mutta ihminen on pyrkinyt arvioimaan kiihkeästi tuntematonta tulevaisuutta keinolla millä hyvänsä. Tiedonlähteiksi ovat kelvanneet eläinten sisäelimet, kahvinporot, tähdet, sammakot ja lukemattomat muut eliöt. Kirjallisena ennustelähteenä yksi tunnetuimpia lienee Raamattu, jonka perusteella on tehty varsin tarkkojakin arvioita niin menneisyydestä kuin tulevaisuudesta. Muun muassa arkkipiispa Usher 1600-luvulla päätyi Raamatun perusteella arvioon, että maapallo on syntynyt 4004 vuotta ennen ajanlaskumme alkua sunnuntaina 23. lokakuuta aamulla klo 9.00. Jos tämä arvio on ennätyksellisen tarkka, niin se lienee nykytietämyksen perusteella ennustevirheeltään myös ennätyksellisen suuri.

Seuraavassa kuitenkin tarkastellaan tieteellistä lähestymistapaa ennusteiden tuottamiseksi ja tarkkuuden arvioimiseksi. Ennustamista tapahtuu monessa yhteydessä. Esimerkiksi voidaan yrittää ennustaa auton jarrutusmatkan pituutta nopeuden ja muiden tekijöiden perusteella. Taloudessa kuitenkin ennustaminen kytketään yleensä aikaan, jolloin tarkasteltavana on aikasarja, joka koostuu muuttujan arvoista peräkkäisinä ajanhetkinä.

2. Taloudessa käytettyjä yksinkertaisia ennustemalleja

Ennusteiden lähtökohtana on ennusteen tekohetkellä käytettävissä oleva tieto. Niinpä voidaankin yksinkertaisesti määritellä, että ennuste on tämänhetkiseen tietoon perustuva odotus tulevaisuuden tapahtumasta (esimerkiksi yrityksen liikevaihdosta tai koko talouden tuotannosta). Merkitsemällä käytettävissä olevaa informaatiota hetkellä t kirjaimella ja tarkasteltavaa muuttujan arvoa hetkellä t kirjaimella , voidaan ennuste seuraavalle ajanjaksolle t+1 kirjoittaa matemaattisesti muotoon

(1) ,

jossa hattu y:n päällä tarkoittaa, että kysymyksessä on muuttujan ennustettu arvo ja E tarkoittaa tässä tapauksessa odotusarvoa, ehdolla, että käytettävissä on informaatio . Ennen kuin mallia (1) voidaan soveltaa käytännössä on määritettävä odotusarvolle operationaalinen muoto. Se onkin ennustemallin rakentamisen vaativimpia tehtäviä.

 

Puhdas satunnaisprosessi

Ennen kuin siirrytään tarkastelemaan joitakin käytetyimpiä ratkaisuja, johdatellaan kaavan (1) perusteella tärkeä käsite—ennustamattomuus. Olettaen, että tunnetaan muuttujan odotusarvo , niin ennustamattomuudella tarkoitetaan yksinkertaisesti sitä, että ennustettaessa y:n arvoa ei käytettävissä olevasta informaatiosta ole mitään hyötyä. Toisin sanoen se ei muuta odotusta y:n tulevista arvoista. Tällöin y:n ehdollinen odotusarvo on sama kuin sen ei-ehdollinen odotusarvo , eli . Tällä käsitteellä on keskeinen sija ennustemallia rakennettaessa ja mallin käyttökelpoisuutta arvioitaessa. Nimittäin, koska (1) on optimaalinen ennuste käytettävissä olevan informaation suhteen, niin ennustevirheen, eli ennusteen ja toteutuneen arvon erotuksen tulisi olla ennustamatonta. Käytännössä tätä ei-ennustettavuutta tutkitaan tarkastelemalla peräkkäisten havaintojen riippuvuutta toisistaan. Mittana käytetään korrelaatiokerrointa. Oheisessa Kuviossa 1 on esimerkki tällaisesta ei-ennustettavasta aikasarjasta, jota kirjallisuudessa kutsutaan puhtaaksi satunnaisprosessiksi, valkoiseksi kohinaksi (nimi tulee optiikasta) tai virheprosessiksi. Merkitään sitä kirjaimella . Luonteenomaista tällaiselle sarjalle on terävät suunnanmuutokset, joissa ei ole järjestelmällistä toistuvuutta.

 

Kuvio1. Valkoinen kohina

Moving Average

Jos palataan malliin (1), niin havaittavalle aikasarjalle voidaan kirjoittaa nyt esitys

(2) .

Täten, jos ei ole ennustettavissa, niin , eli havaittava sarja vaihtelee satunnaisesti keskiarvonsa ympärillä. Käytännössä kuitenkin havaittavat aikasarjat ovat yleensä huomattavasti tasaisemmin käyttäytyviä. Eräs käyttökelpoinen malli on

(3)

jota sanotaan liukuvan keskiarvon malliksi eli MA (Moving Average) malliksi. Tässä siis aikasarjalla on yhden askeleen muisti siten, että osa eilen tapahtuneesta muutoksesta vaikuttaa seuraavaan päivään. Tämä tasoittaa sarjaa siten, että kertoimen ollessa positiivinen edellisen ajanhetken muutos vaimentaa uutta muutosta, jos ne ovat erimerkkisiä ja vahvistaa, jos ne ovat samanmerkkisiä.

Kuvitteellisena esimerkkinä voisi olla osakkeen hinnan muutos, jossa edellisenä päivänä tapahtunut muutos saa ostajat ja myyjät liikkeelle, mutta kaupankäynnin hitauden vuoksi kaikkia kauppoja ei ehditä toteuttaa samana päivänä vaan osa jää seuraavalle päivälle. Kerroin a ilmaisee kuinka suurella voimakkuudella edellisen päivän muutos heijastuu seuraavaan päivään. Mallissa (1) nyt , eli paras ennuste seuraavalle päivälle on ja näin käyttökelpoisen informaation muodostaa edellisen ajankohdan havaittu satunnaispoikkeama, joka tietyllä kertoimella vaikuttaa seuraavaan havaintoon.

Kuvio 2. MA(1)-prosessi

Malli (3) on helposti yleistettävissä lisäämällä aiempia termejä jatkoksi oikealle puolelle.

Autoregressiivinen malli

Toinen paljon käytetty malli on niin sanottu autoregressiivinen (AR) malli, joka yksinkertaisimmillaan on muotoa

(4) ,

jossa c on yhteydessä sarjan keskiarvoon kaavan kautta Ennuste saa nyt muodon , eli informaation muodostaa edellisen ajankohdan havainto, joka tietyllä kertoimella vaikuttaa seuraavaan. Tämä malli voidaan myös helposti yleistää lisäämällä historiatermejä oikealle puolelle.

Tarkasteltaessa edelleen kuvitteellisena esimerkkinä pörssikursseja. Ajatellaan tilanne, jossa kurssien noustessa markkinoille ilmaantuu lisää myyjiä, jolloin tarjonnan lisääntyessä kurssit alkavat laskea. Tällöin kerroin b olisi negatiivinen. Jos taas ajatellaan, että nousevat kurssit herättävät ostoinnostusta markkinoilla olisi kerroin positiivinen.

Kuviossa 3 on esimerkki AR-mallista. Tyypillistä tällaiselle sarjalle on positiivisen kertoimen tapauksessa, että suuria arvoja seuraa suuret arvot ja pieniä pienet. Jos kerroin on negatiivinen käyttäytyy sarja sahaavasti, eli suuria arvoja seuraa pienet arvot ja päinvastoin.

Kuvio 3. Autoregressiivinen prosessi

Mallien (3) ja (4) yhdistelmänä saadaan niin sanottu autoregressiivinen liukuvan keskiarvon malli ARMA (Auto Regressive Moving Average).

(5) ,

joka on käytännössä osoittautunut usein hyvinkin käyttökelpoiseksi. Rinnastamalla edellisiin pörssiesimerkkeihin yhdistyy tässä kahdenlainen käyttäytyminen. Ennustamisessa käyttökelpoinen informaatio koostuu edellisestä virhetermistä ja edellisestä sarjan arvosta, jotka vaikuttavat seuraavaan havaintoon.

Satunnaiskulu

Eräs tärkeä erikoistapaus Autoregressiivisestä mallista (4) saadaan, kun b=1, jolloin malli tulee muotoon

Tällaista mallia sanotaan satunnaiskuluksi (Random Walk). Autoregressiivisessä mallissa aikaisempien havaintojen vaikutus pikkuhiljaa häviää. Satunaiskulussa sen sijaan jokainen aikaisemman havainnon vaikutus ei häviä koskaan. Tällä yksinkertaisella mallilla on keskeinen sija esimerkiksi pörssikurssien mallintamisen teoriassa. Kuvioissa 4 on esimerkki satunnaiskulusta ja kuviossa 5 HEX yleisindeksin kuvaaja. Kuviot ovat luonteeltaan toisensa kaltaisia.

 

Kuvio 4. Satunnaiskulku

 

Kuvio 5. HEX yleisindeksi

Tyypillistä tällaiselle sarjalle on, että paras ennuste seuraavalle päivälle on viimeksi havaittu arvo.

 

Yksinkertainen kasvumalli

Useissa tapauksissa riittävä arvio tulevaisuudesta saadaan kun tunnetaan kasvuvauhti. Esimerkiksi talouden, jonkin toimialan tai yrityksen kehityksen luonnehdinnassa usein riittää kun tunnetaan sen vuotuinen kasvuvauhti. Tällöin, jos vaikkapa yrityksen liikevaihdon vuotuista kasvua (vuotuinen suhteellinen muutos) kuvataan parametrilla g, niin jatkuva-aikaista mallia käytettäessä ja hyödyntämällä jälleen suhteellisen yksinkertaista matematiikkaa saadaan kasvumalliksi ajan suhteen

(6) ,

jossa on yrityksen liikevaihto tarkasteluajanjakson alussa (t=0) ja e on koulumatematiikasta tuttu Neperin luku (2.718…). Kasvumallin perusteella on helppoa arvioida esimerkiksi kuinka monessa vuodessa liikevaihto kaksinkertaistuu. Mallista (6) saatavaa vastausta sanotaan joskus "70 säännöksi", sillä yksinkertaisella laskutoimituksella saadaan, että kaksinkertaistumisaika on 0.6931/g, eli likimain 0.70/g.

Kasvumalli ja Suomen talouden kasvun ennustaminen

Tarkastellaan esimerkkinä Suomen reaalista bruttokansantuotetta vuoden 1990 hinnoin ajanjaksolta 1972–1997. Merkitään Y:llä bkt:tta, muutetaan yhtälö (6) logaritmiseen muotoon ja lisätään virhetermi, jolloin saadaan tilastollinen malli

(7) ,

jossa y = ln(Y) ja v on virhetermi. Tällainen malli saadaan helposti estimoitua havaintoaineistosta. Tarkastellaan kuitenkin parametrien y0 ja g estimaattien sijaan ensin kuinka virhetermi v käyttäytyy. Senhän pitäisi olla valkoista kohinaa, eli kuvion (1) kaltaista. Kuitenkin kuviosta 6 nähdään välittömästi, että näin ei asia varmastikaan ole. Enemmän se muistuttaa kuvion 3 tilannetta.

Kuvio 6. Talouden kasvumallin virhetermin aikasarja.

 

Niinpä osoittautuu, että mallia voidaan oleellisesti parantaa, kun mallinnetaan virhetermi seuraavan autoregressiivisen prosessin mukaisesti

(8)

Estimointitulokset on esitetty taulukossa 1.

Taulukko 1. Kasvumallin (7) parametrien estimaatit.

 

Kertoimen g estimaatin arvo 0.025 tarkoittaa, että Suomen taloudellinen kasvu on tarkasteluajanjakson perusteella arvioituna pitkällä aikavälillä 2.5 prosenttia. Koska tilastoaineistoon perustuvaan arviointiin liittyy aina satunnaisvirhettä, on syytä liittää arvioon myös virhemarginaali, jolla täsmällisemmin ilmaistuna tarkoitetaan luottamusvälejä. Apuna käytetään keskivirhettä. Kasvuestimaatin virhearvio tässä tapauksessa on 0.4 prosenttiyksikköä. Taulukon t- ja p-arvot ilmaisevat kertoimien niin sanotut tilastolliset merkitsevyydet, joihin tässä ei sen enempää kuitenkaan puututa.

Estimoidun mallin perusteella voidaan nyt myös laatia ennusteita. Keskimääräinen kasvuennuste on 2.5 prosenttia, mutta ennusteeseen vaikuttaa myös kahden edellisen vuoden virhetermit. Hyödyntämällä jäännöstermin AR-rakenne saadaan vuoden 1998 kasvuennusteeksi niinkin korkea kuin 5.5 prosenttia. Viime vuoden syksyllä ennustelaitokset povasivat tälle vuodelle melko yksimielisesti 3.5 prosentin tietämissä olevaa kasvua. Tänä keväänä ennusteita on kuitenkin korjattu selvästi ylös; ETLA:n ennuste on 4 ja PTT:n 4.5 prosenttia, joten hajonta on huomattavasti suurempaa mitä se oli vielä viime syksynä. Jos kasvumallilla (7) tehdään ennuste tälle vuodelle ilman viime vuoden bkt:n ennakkotietoa antaa se ennusteeksi 4.2 prosenttia.

Ennusteiden vaihtelevuus kertoo tilanteen epävarmuudesta. Viime vuosi näyttää jälleen jäävän historiaan suurten ennustevirheiden vuotena talouden kasvun suhteen. Vuoden 1996 syksyllä esimerkiksi PTT ennusti vuoden 1997 kasvuksi 2.5 prosenttia ja muut tärkeimmät laitokset lähes ykskantaan 3.5 prosenttia. Tuoreimman ennakkotiedon mukaan toteutunut kasvu oli kuitenkin 5.9 prosenttia! Optimistisimmatkin ennusteet jäivät täten melkein 2.5 prosenttiyksikköä alle toteutuneen. Romahdusvuotena 1991 pessimistisimmätkin ennusteet yliampuivat seitsemällä prosenttiyksiköllä! Kysymyksessähän tietysti oli erittäin poikkeava vuosi.

Virhemarginaalit ennusteille

Kuten yllä olemme havainneet ennustamistilanne on poikkeuksetta vaikea. Luonteenomaista ennusteille tietysti on, että niiden vaihtelun tulee olla pienempää kuin todellisuuden. Näin siksi, että toteutuvassa tapahtumassa osatekijänä olevaa satunnaisuutta ei kannata ennustaa. Täten on myös luonnollista, että ennusteet poikkeavat todellisista arvoista. Kuitenkin, jotta ennusteiden käyttäjät saisivat jonkinlaisen kuvan tilanteeseen liittyvästä epävarmuudesta, olisi ennusteisiin liitettävä laatusertifikaatti. Tällaisina toimisivat virhemarginaalit, joita liitetään jo gallup-arviointeihin. Voitaisiin käyttää esimerkiksi vaikkapa niinkin kapeita kuin 50 prosentin luottamusvälejä, jotka siis ilmoittavat rajat joiden sisäpuolelle toteutuvan arvon voidaan odottaa sattuvan 50 prosentin todennäköisyydellä.

Esimerkiksi edellä tarkastellun kasvumallin 50 prosentin virhemarginaali on 2.7 prosenttiyksikköä. Toisin sanoen kun mallin antama kasvuennuste tälle vuodelle (1988) on 5.5 prosenttia, niin 50 prosentin varmuudella sen tulisi olla 2.8:n ja 8.2:n prosentin välillä. Tässä on siis 25 prosentin todennäköisyys, että kasvu jää alle 2.8 prosenttia, samoin 25 prosentin toennäköisyys, että se ylittää huikeat 8.2 prosenttia. Huomattakoon, että alarajakin ylittää mallin antaman pitkän aikavälin 2.5 prosentin kasvun. Tämä on tulkittavissa siten, että korkeasuhdanne näyttää jatkuvan ainakin vielä tämän vuoden.

Koska tutkimuslaitokset eivät toistaiseksi julkaise luottamusvälejä vaan desimaalin tarkkuudella olevia yksittäisiä ennusteita, jää epävarmuuden arviointi ainoastaan käyttäjän oman taidon varaan. Jonkinlaista käsitystä epävarmuudesta saa kun vertailee kuinka ennusteet poikkeavat toisistaan. Tämäkään ei tosin anna aina kovin hyvää kuvaa tilanteesta, kuten yllä jo todettiin. Niinpä virhemarginaalien liittäminen ennusteisiin olisi erittäin tarpeellista.

Harjoitustehtävä