Tölfræði gengur út á að hafa rangt fyrir sér
Í dag tengja líklega flest orðið spálíkan við fréttir um þróun smita í kórónuveirufaraldrinum en innan Háskóla Íslands hefur hópur fólks unnið að þróun slíks líkans og fylgst náið með faraldrinum. Í þeirra hópi er Brynjólfur Gauti Jónsson. Hann kláraði á þessu ári MS-nám í tölfræði frá Háskóla Íslands og stundar nú doktorsnám í líftölfræði, þeirri grein sem kórónuveiran hefur sannarlega komið á kortið.
Í meistaraverkefni sínu rannsakaði Brynjólfur aðferðarfræðina á bak við spálíkanagerð varðandi aldurstengda dánartíðni. Þessi tegund spálíkana er mikið notuð í tryggingarstærðfræði og -tölfræði, til dæmis þegar lífeyrissjóðir reikna út væntanlega ævilengd fólks.
Sú tölfræði nýtist lífeyrissjóðunum þegar kemur að því að ákvarða hversu mikið eigi að greiða út mánaðarlega af lífeyri. Eftir því sem spálíkönin eru nákvæmari því líklegra er að lífeyrisþeginn fái alla þá peninga sem hann á inni. Þá er sömuleiðis minni áhætta fyrir lífeyrissjóðina.
Byggt ofan á gamla klassík
Rannsókn Brynjólfs snerist um að byggja ofan á gamalkunnugt spálíkan. „Þessi spálíkön eru ekkert ný af nálinni,“ sagði Brynjólfur, „Lee-Carter líkanið svokallaða er frá byrjun tíunda áratugs síðustu aldar, það er gamalt og klassískt í raun. Það sem við gerðum var að byggja inn í það einhvers konar forsendur um að nálægir aldurshópar væru líkari en fjarlægir aldurshópar,“ segir Brynjólfur og vísar þar til sín og leiðbeinanda síns við rannsóknina, Birgis Hrafnkelssonar, prófessors í tölfræði við Raunvísindadeild. Hann hefur að sögn Brynjólfs unnið mikið í rannsóknum tengdum svokallaðri rúmtölfræði (e. spatial statistics) og Brynjólfur nýtti sér það í eigin rannsókn.
„Birgir vinnur mikið með veðurgögn. Ef þú ert með margar veðurstöðvar þá eru ekki allar veðurstöðvarnar með óháðar mælingar. Ef þær eru mjög nálægt hver annarri þá eru mælingarnar svolítið líkar. Ég tók þessar pælingar úr rúmtölfræðinni og hugsaði að ef aldur væri líka fjarlægð þá væri hægt að leyfa líkaninu að finna einhverja tengingu í aldri þannig að meiri fjarlægð þýddi minni líkindi. Það kom svolítið á óvart hvað það virkaði vel fyrir líkanið,“ segir hann um niðurstöður meistaraverkefnisins.
Vistfræði og smitsjúkdómar
Það er ekkert einsdæmi að taka spálíkan af einu sviði og beita því á öðru. Það sama á til að mynda við um COVID-19-spálíkanið sem Brynjólfur hefur komið að með ríkulegum hætti. Það kemur upphaflega úr vistfræði. „Í vistfræði er mikið verið að rannsaka líkön sem spá fyrir um hluti sem hafa hámark. Eins og plöntur, þær vaxa og verða ákveðið stórar. Dýr verða líka ákveðið stór. Þetta er s.s. vistfræðilegt líkan um hluti sem hafa hámark sem var síðan beitt á þennan fjölda smita í COVID-19-faraldrinum sem hefur hámark líka,“ bendir Brynjólfur á.
Í doktorsnáminu ætlar Brynjólfur að skoða betur tenginguna á milli vistfræðilegra spálíkana og smitsjúkdómalíkana. „Þau virka bæði vel, virðist vera. Og það tengist meistaraverkefninu því þar var ég líka að vinna með svokallaða stigskipta líkanasmíði. Í stað þess að hver og einn aldurshópur fái bara einhverja stika og viti ekkert af því hvað er að gerast í hinum aldurshópunum þá skrifaði ég líkanið þannig að það lærir af mati nálægra aldurshópa. Það var alveg eins með þetta COVID-19-líkan, í staðinn fyrir að hvert land fengi bara sitt mat þá var gert heildarmeðalmat á heimsvísu og þannig lærir líkanið,“ segir hann.
Brynjólfur bendir á að öll tölfræðileg spálíkön reynist mjög góð ef aðstæður breytist ekki hratt. „Af því að þetta byggist alltaf á fyrirliggjandi gögnum. Ef það koma allt önnur gögn í framtíðinni þá virka spálíkönin ekki lengur eða ef það koma upp ófyrirsjáanleg fyrirbæri sem líkönin spá ekki fyrir um. Dæmi um þetta eru hópsmit í kórónuveirufaraldrinum eða áhrif borgarastyrjalda á dánartíðnispálíkön. Þá koma einhverjar rangar niðurstöður. En tölfræði sem fræðigrein gengur út á það að hafa rangt fyrir sér, bara ekki kerfisbundið,“ segir hann sposkur.
Tölfræðibók sem allir ættu að lesa
Tölfræðiáhuginn er það mikill að Brynjólfur segist lesa mikið um tölfræði utan námsefnisins. Hann segist hafa tileinkað sér lestrarvenjur tölfræðingsins Nassim Nicolas Taleb. „Ég les bók þangað til ég nenni ekki að lesa hana lengur eða skil hana ekki. Þá les ég bara aðra bók. Svo kem ég kannski aftur að hinni seinna. Þannig hef ég alltaf gaman af því að lesa.“
Ein af bókunum sem Brynjólfur las og hafði mikil áhrif á hann var bókin Statistical Rethinking eftir Richard McElreath. Það er bók sem Brynjólfur hefur bent sem flestum á og auglýst sem víðast, til dæmis í meistaravörninni sinni.
„Þetta er besta tölfræðikennslubók sem ég veit um og mér finnst að flestir ættu að lesa hana. Hún var eiginlega líka uppsprettan að þessari rannsókn minni sem tengist aldurstengdri dánartíðni. Í bókinni kemur fram að þú getur ekki alltaf verið með einhverja núlltilgátu og hafnað henni. Þú verður bara að búa til eitthvert líkan sem á mögulega að útskýra heiminn. Svo verður þú að sjá hvernig það hefur rangt fyrir sér. Síðan býrðu til annað líkan og berð þau saman, hvernig þau hafa rangt fyrir sér. Og þannig lærirðu,“ segir hann að endingu.
Höfundur greinar: Halldór Marteinsson, meistaranemi í opinberri stjórnsýslu