Har du lurt på om kommunene med flest smittetilfeller av korona har noe til felles? Og eventuelt hva har kommunene med mest korona til felles? Det gjorde jeg. I dette innlegget sjekker vi korrelasjon mellom antall smittet med korona og 40 kommunekarakteristikker fra Statistisk Sentralbyrå (ssb.no).
Disse krysset jeg så med totalt antall koronasmittede fra Folkehelseinstituttet (fhi.no), nå når første bølge ser ut til å være over.
Forklaringsgraden er ikke sterk, men det ser ut til at de hardest rammede kommunen også har den høyeste befolkningsveksten, relativt få innbyggere som bor i enebolig, og relativt fulle kinosaler.
Dette er ikke så overraskende når vi vet at de største byene har blitt hardest rammet. Kanskje er dette innlegget mer å betrakte som en skråblikk på naive korrelasjonsanalyser enn kilde til ny innsikt. Men hvis du liker den slags håper jeg du blir med videre og ser flere eksempler på hvorfor samvariasjon (korrelasjon) ikke nødvendigvis er det samme som sammenheng.
Her er en lignende analyse av hvor sårbare norske kommuner er mot COVID-19
40 kommunekarakteristikker fra ssb
- Personer per privathusholdning
- Enfamiliehusholdninger med voksne barn
- Andel fedre som tar hele fedrekvoten eller mer av foreldrepengeperioden
- Forholdet mellom menn og kvinners bruttoinntekt
- Kjønnsfordeling blant ledere
- Andel innvandrere
- Innenlandsk nettoinnflytting per capita
- Netto inn- og utvandring per capita
- Nettoinnflytting per capita
- Antall dødsfall 2019
- Antall innbyggere 2019
- Befolkningsvekst (to år, %) Antall som bor romslig
- Antall som bor trang
- Andel i annen boligbygning
- Andel i boligblokk
- Andel i enebolig
- Andel i rekkehus
- Andel i tomannsbolig
- Andel i andels-bolig
- Andel i leiebolig
- Andel i selveier
- Antall fritidsbygninger
- Andel mellom 0-19 år
- Andel mellom 20-64 år
- Andel over 65 år
- Andel med yrke i jordbruk, skogbruk og fiske
- Andel med yrke i off.adm., forsvar, sosialforsikring
- Andel med yrke i personlig tjenesteyting
- Andel med yrke i sekundærnæringer Andel med yrke i undervisning
- Andel med uoppgitt yrke
- Andel med yrke i varehandel, hotell og restaurant, samferdsel, finanstjen., forretningsmessig tjen., eiendom
- Inntekt per husgholdning (median)
- Besøk per kinoforestilling
- Antall frivillige lag og foreninger per cappita
- Andel medlem i den norske kirke
- Andel medlemmer i tros-samfunn utenfor Den norske kirke
- Mottakere av hjemmestjenester per capita
- Antall plasser i helse- og omsorgsinstitusjon per capita
- Utgifter per oppholdsdøgn på helseinstitusjon per capita
hva har kommunene med mest korona til felles?
Det finnes regler for hvor stor en korrelasjonsmatrise burde være. Her bryter jeg den regelen. Når jeg viser korrelasjonene mellom mer enn 40 dimensjoner blir korrelasjonsmatrisen alt for stor. Hvis jeg i tillegg hadde inkludert navnene på dimensjonene ville den blitt helt umulig å lese. Heldigvis kan du se hvilke dimensjoner som krysses ved å føre musepekeren over matrisen. Antall registrerte smittede, og antall smittede per innbygger finner du i kolonnene lengst til høyre (eller de nederste radene).
Det mest interessante i en slik matrise er de cellene med veldig høye, eller veldig lave tall (+1 eller -1). Det vil si de dimensjonene med veldig høy eller veldig lav samvariasjon. Ta ett minutt til å studere matrisen og se om noe stikker seg ut?
Tallene i tabellen (korrelasjonskoeffisienten) varierer mellom -1 og 1:
- Hvis korrelasjonen mellom to dimensjoner er 0 så betyr det at de to dimensjonene ikke har noe med hverandre å gjøre.
- Hvis korrelasjonen er over 0 så betyr det at at økning i den ene ofte assosieres med økning i den andre. Jo høyere korrelasjonskoeffisienten er, jo sterkere kan sammenhengen være.
- Hvis korrelasjonen er under 0 så betyr et at økning i den ene dimensjonen ofte skjer sammen med at den andre faller. Jo lavere korrelasjonen er, jo sterkere kan sammenhengen være.
De fleste cellene som skiller seg ut i korrelasjonsmatrisen (med veldig lave eller høye verdier) er lite overraskende. Det er for eksempel høy korrelasjon mellom:
- inntekt per husholdning og antall personer per husholdning, og…
- antall personer per husholdning og andelen innbyggere under 19 år, og…
- andelen innbyggere under 19 år, og inntekt per husholdning.
Det er ikke vanskelig å se at disse henger sammen.
Når det gjelder Korona ser vi en veldig sterk sammenheng mellom antall registrerte smittede og antall innbyggere i kommunen. Det er heller ikke overraskende. Når vi justerer antall smittede per innbygger så forsvinner den sammenhengen.
Vi reduserer dimensjonaliteten
Det kan være mange interessante sammenhenger å oppdage i korrelasjonsmatrisen ovenfor, men den er også så stor at det er lett å gå seg vill. Spesielt når vi har en spesifikk variabel vi ønsker å studere, som i dette tilfellet.
For å finne ut hva kommunene med mest korona har til felles må vi redusere dimensjonaliteten. Det kan vi gjøre ved å gjøre ett uttrekk fra korrelasjonsmatrisen, men det er jo litt mer moderne å kjøre en random forests algoritme. Den beregner og rangere input-variablene etter hvor viktig de er til å predikere antall smittede per innbygger. Beregningene gjøre på 50% av kommunene, og resultatet testes på de resterende 50%.
Random forests er en enkel form for maskinlæring. Som navnet indikerer baserer den seg på beslutnings trær (mange trær blir en skog). Algoritmen stiller en rekke spørsmål for å snevre seg inn mot de dimensjonene som er viktigst.
Søylene nedenfor rangerer de 15 viktigste dimensjonene for å predikere antall smittede per innbygger:
Det ser ut som at de kommunene med høyest befolkningsvekst de siste to årene også er de kommunene med flest koronasmittede. Men det ser også ut som de kommunen med flest innbyggere ofte også er de kommunene med størst befolkningsvekst, som også er de kommunen med flest besøk per kinoforestilling. Med andre ord har vi mange dimensjoner som vi egentlig kunne (burde) redusert til en dimensjon (for eksempel antall innbyggere).
Konklusjon
Presisjonen av kommunekarakteristikkene er lav, og gir oss ikke egentlig noe ny informasjon av verdi. Resultatene virker ikke urimelige. Folk har en tendens til å søke seg til store byer, og i store byer er både befolkningstettheten større og trafikken inn og ut av byen er større, som legger forholdene til rette for at virus spres effektivt.
Si på Twitter hvis du syntes dette var interessant, eller meld deg på nyhetsbrevet mitt.