Hvorfor dødeligheten til koronaviruset ikke kan sammenlignes med trafikkulykker

Har du hørt noen si at man ikke kan sammenligne dødeligheten til koronaviruset med dødeligheten til for eksempel trafikkulykker eller vanlig influensa? Og har du lurt på hvorfor vi ikke kan sammenligne koronaviruset med trafikkulykker? Grunnen er at dødeligheten ved trafikkulykker er ganske stabile over tid, mens koronaviruset har en ujevn spredning og vokser eksponensieltI dette innlegget forklarer jeg forskjellen nærmere, og gir noen tips du kan bruke for å sjekke hvilke type fenomen du har med å gjøre. 

Her er et betimelig eksempel av hvordan Nassim Nicolas Taleb (forfatteren av the Black Swan) reagerer i vantro på hvordan den amerikanske presidenten sammenligner to ting som ikke egentlig kan sammenlignes.

Etter du har lest dette innlegget vil du unngå blemmer som det Trump gjorde ovenfor – å sammenligne dødeligheten til vanlig influensa, som er ganske stabil over tid, med dødeligheten til Koronaviruset som vokser eksponensielt. 

For å forstå hvordan de to typer fenomener er forskjellige må vi se på fordelingskurvene. La oss bare hoppe i det. 

Trafikkulykker er normalfordelte

For å se hvorfor vi ikke kan sammenligne koronaviruset med trafikkulykker starter vi med den klassiske normalfordelingskurven, bjellekurven, eller gaus-kurven. Det er denne type usikkerhet det går an å regne på. 

Eksempler på fenomener i denne kategorien er trafikkulykker, dødsfall fra livsstilssykdommer, terningkast, IQ eller høyden på mennesker. Disse fenomenene kan beskrives med en normalfordelingskurve fordi de fleste observasjoner ligger rundt midten (gjennomsnittet). På grunn av det faller sannsynligheten raskere og raskere jo lengre unna gjennomsnittet vi er. 

Nedenfor har jeg tegnet en omtrentlig normalfordelingskurve. Den grå streken i midten er gjennomsnittet – der de fleste havner. Jo lengre unna den grå streken du går, jo færre observasjoner er det

 

illustrert normalfordelingskurve (feks for trafikkulykker)

Hvis vi for eksempel måler høyden på et utvalg mennesker så vil høyde være langs den horisontale aksen. Gjennomsnittet er den grå streken, for eksempel 170 cm. Så blir tallet høyere og høyere til høyre for streken, og vise versa til venstre. 

De fleste er rundt 170 cm, noen få er veldig høye, og noen få er veldig lave. Skal du gjette høyden på en person – så blir det mindre og mindre sannsynlig jo lengre unna gjennomsnittet du tipper. 

Sagt på en annen måte, så er det mer sannsynlig at den du velger er rundt 170 cm enn at vedkommende er 185 cm. Og det er mye mer sannsynlig at vedkommende er 185 cm enn 200 cm. Sannsynligheten faller raskere og raskere jo lengre unna gjennomsnittet vi går. 

 

Koronaviruset og pandemier har "tykke haler"

Nå skal vi se på den andre typen fordelinger – den det er vanskelig å regne på og umulig å estimere. Ofte er det ting vi ser for oss kan eller kommer til å skje (som pandemier eller børskrakk). Vi klarer derimot ikke forutsi når det kommer til å skje eller hvor kraftig konsekvensene blir.

Denne type usikkerhet er, i motsetning til den normalfordelte typen, uforutsigbar og har store konsekvenser. Det kan være noe som skjer så sjeldent at vi ikke har fanget det opp i dataene. Eller det kan være noe som er vanlig nok til at vi vet det kommer til å skje… men ikke når eller hvor. For eksempel jordskjelv eller børskrakk – vi vet de skjer, og at de av og til er veldig kraftige, men vi vet ikke når eller hvor det neste kommer.

I motsetning til høydeeksempelet, eller antall som omkommer i trafikkulykker hvert år, så er ikke omfanget av jordskjelv, børskrakk eller pandemier omhyggelig sentrert rundt ett gjennomsnitt. De har heller ikke like mange store og små variasjoner på hver side av gjennomsnittet. 

I disse fenomenene er de fleste hendelsene veldig små, og jo større de er jo mindre sannsynlige er de. Men muligheten for et enormt jordskjelv eller en stor pandemi med fatale konsekvenser kan aldri utelukkes. Sannsynligheten for en ekstremt høy person (over 4 meter) er derimot astronomisk liten. 

Her har jeg forsøkt tegne et eksempel på en fordelingskurve med tykk hale:

illustrert fordelingskurve for koronaviruset med tykk hale

Denne tykk-hale usikkerheten (av mangel på bedre navn) kan vi ikke unngå. Alt vi kan gjøre er å være best mulig forberedt. Er du redd for jordskjelv så bosett deg i en verdensdel som ikke er så utsatt, i ett solid hus. Er du redd for pandemier bosett deg et sted uten for stor befolkningstetthet og vær nøye med hygiene. er du redd for børskrakk kan du forsikre deg som Nassim Nicolas Taleb – kontinuerlig betale litt penger for put opsjoner som kun gir god avkastning ved voldsomme markedskrasj. Men det er ingen ting du kan gjøre for å stoppe jordskjelvene, pandemiene eller markedskrasjet fra å skje. 

Koronaviruset og trafikkulykker er epler og pærer

Nå vet vi at vi ikke kan sammenligne dødeligheten til koronaviruset med trafikkulykker fordi fordelingskurvene er fundamentalt forskjellige. Som hovedregel kan du bruke normalfordelingskurven på områder som har en logisk grense for hva som er mulig. Spesielt hvis en observasjon på den grensen ikke vil å gi betydelige utslag på gjennomsnittet. Klarer du ikke se for deg en logisk grense burde du være forsiktig. For det er forskjell på epler og pærer.

For eksempel så vil selv verdens høyeste mann ikke klare å flytte gjennomsnittet i høyde-eksempelet betydelig (har du så stort utvalg at du har fått med verdens høyeste mann så har du fått med noen veldig lave også). 

Sånn er det ikke med pandemier eller jordskjelv. Her er det ingen øvre grense for konsekvensene. Eller, i teorien er det jo en øvre grense, men den er veldig høy og vil definitivt påvirke gjennomsnittet av observasjonene dine om den skulle inntreffe. 

Det samme gjelder aksjemarkedet, hvor det egentlig ikke er noe nedre (eller øvre) grense for bevegelsene. Om det er en grense så er jeg sikker på at det vil påvirke gjennomsnittsavkastningen din om den skulle inntreffe. Dette poenget er den største kritikken mot tilhengere av moderne porteføljeteori (Markowitz-porteføljer).

Les mitt innlegg om moderne porteføljeteori her

Spredningen i pandemier er ikke lineære

En teknikk for å vurdere en eventuell logisk grense er å tenke på tidsdimensjonen. Det er fordi fenomener av den normalfordelte typen ikke er multiplikativ, mens «tykk hale-usikerheten» ofte er det. Det er den multiplikative egenskapen som gjør at noen observasjoner havner så langt unna klyngen.

For eksempel har fordelingen av høyden på mennesker ingen sterke trender over tid. Det er ikke sånn at mennesker i dag er 3x så høye som for 100 år siden. Høyde er heller ikke smittsom. Koronaviruset og pandemier er derimot multiplikative fordi smitten gjør at antall tilfeller (og implisitt dødsfall) kan mangedobles fra en periode til neste. 

Forskjellen blir tydelig om vi plotter akkumulerte observasjoner over tid. Siden normalfordelte observasjoner ikke har en tydelig trend vil det gi en (mer eller mindre) lineær linje. Se illustrert blå kurve nedenfor.

illustrasjon av lineær og logaritmisk utvikling over tid (feks koronaviruset og trafikulykker)

Med multiplikative fenomener, som pandemier og smittsomme sykdommer, får vi en eksponensielt stigende kurve (rød). Det er fordi hver smittebærer kan spre viruset videre til nye personer, som igjen sprer det, og så videre. Det er det som gjør at pandemier har lange haler. Du kan sånn sett sammenligne pandemier med en makaber versjon av rentes rente-effekten (penger er også et mulitplikativt fenomen). 

Her kan du lese mitt innlegg om rente rente-effekten.

Så vi kan ikke sammenligne koronaviruset med trafikkulykker

Vi har nå sammenlignet fenomener som er ganske stabile over tid med fenomener som har mer ujevn spredning. Jeg har også gitt noen tips for å oppdage hvilke type fenomen du har med å gjøre. Det kan være nyttig for å unngå gå i blemmer som det Trump gjorde innledningsvis – å sammenligne dødeligheten til vanlig influensa, som er ganske stabil over tid, med dødeligheten til Koronaviruset som vokser eksponensielt.  

Fellen mange går i er å naivt bruke empirisk data til å finne ytterpunktene. Eller potensielt enda verre – klippe bort ekstreme observasjoner for å tvinge fenomenet inn i en normalfordelt kurve. Jeg er selv skyldig i det fra tid til annen. Normalfordelingskurven er jo så ryddig å fin, og får det til å se ut som vi har full kontroll. 

Når det er sagt er normalfordelingskurver helt ypperlig til fenomener som er stabile, men når multiplikative fenomener behandles som normalfordelte risikerer vi å lure oss selv. Da er vi i «sorte svaner» territorie. Det er fordi de ryddige og fine normalfordelingsforutsetningen får oss til å ignorere, eller i beste fall undervurdere, det som ligger utenfor kurvens normale utfallsrom. 

Det er dette Nassim Nicolas Taleb refererer til som the «empiricism of the idiots», eller «naive empiricism», fordi noen (idiotene?) naivt har brukt empiriske data til å beskrive ett fenomen som kanskje er multiplikativt. Jeg trekker en annen parallell til Netflix sci-fy serien Altered Carbon hvor AI-teknologien fremstilles som noe litt gammeldags og naivt. Her blir personifiserte AI´er degradert til arkeologer (implisitt at de kun egner seg til å beskrive hva som har skjedd i fortiden – ikke til å spå fremtiden, IMO). Når man modellerer framtiden kun på empiri så vil man ofte måtte forutsette normalitet, og som vi nå vet kan det være farlig.

 

Her kan du se min oversikt over utviklingen av koronaviruset i Norge

 

Si 👋 på Twitter hvis du syntes dette var interessant, eller meld deg på nyhetsbrevet mitt.

Legg inn en kommentar