Hva har kommunene med mest korona til felles?

  • Data

Har du lurt på om kommunene med flest smittetilfeller av korona har noe til felles? Og eventuelt hva har kommunene med mest korona til felles? Det gjorde jeg. I dette innlegget sjekker vi korrelasjon mellom antall smittet med korona og 40 kommunekarakteristikker fra Statistisk Sentralbyrå (ssb.no).

Disse krysset jeg så med totalt antall koronasmittede fra Folkehelseinstituttet (fhi.no), nå når første bølge ser ut til å være over.

Forklaringsgraden er ikke sterk, men det ser ut til at de hardest rammede kommunen også har den høyeste befolkningsveksten, relativt få innbyggere som bor i enebolig, og relativt fulle kinosaler. 

Dette er ikke så overraskende når vi vet at de største byene har blitt hardest rammet. Kanskje er dette innlegget mer å betrakte som en skråblikk på naive korrelasjonsanalyser enn kilde til ny innsikt. Men hvis du liker den slags håper jeg du blir med videre og ser flere eksempler på hvorfor samvariasjon (korrelasjon) ikke nødvendigvis er det samme som sammenheng.

Her er en lignende analyse av hvor sårbare norske kommuner er mot COVID-19

40 kommunekarakteristikker fra ssb

For å finne korrelasjon mellom antall smittet med korona og kommunekarakteristikker tar jeg utgangspunkt i kommunefakta-siden til ssb. Her er dimensjonene jeg endte opp med å hente ut for hver kommune i Norge:
 
  1. Personer per privathusholdning
  2. Enfamiliehusholdninger med voksne barn
  3. Andel fedre som tar hele fedrekvoten eller mer av foreldrepengeperioden
  4. Forholdet mellom menn og kvinners bruttoinntekt
  5. Kjønnsfordeling blant ledere
  6. Andel innvandrere
  7. Innenlandsk nettoinnflytting per capita
  8. Netto inn- og utvandring per capita
  9. Nettoinnflytting per capita
  10. Antall dødsfall 2019
  11. Antall innbyggere 2019
  12. Befolkningsvekst (to år, %) Antall som bor romslig
  13. Antall som bor trang
  14. Andel i annen boligbygning
  15. Andel i boligblokk
  16. Andel i enebolig
  17. Andel i rekkehus
  18. Andel i tomannsbolig
  19. Andel i andels-bolig
  20. Andel i leiebolig
  21. Andel i selveier
  22. Antall fritidsbygninger
  23. Andel mellom 0-19 år
  24. Andel mellom 20-64 år
  25. Andel over 65 år
  26. Andel med yrke i jordbruk, skogbruk og fiske
  27. Andel med yrke i off.adm., forsvar, sosialforsikring
  28. Andel med yrke i personlig tjenesteyting
  29. Andel med yrke i sekundærnæringer Andel med yrke i undervisning
  30. Andel med uoppgitt yrke
  31. Andel med yrke i varehandel, hotell og restaurant, samferdsel, finanstjen., forretningsmessig tjen., eiendom
  32. Inntekt per husgholdning (median)
  33. Besøk per kinoforestilling
  34. Antall frivillige lag og foreninger per cappita
  35. Andel medlem i den norske kirke
  36. Andel medlemmer i tros-samfunn utenfor Den norske kirke  
  37. Mottakere av hjemmestjenester per capita
  38. Antall plasser i helse- og omsorgsinstitusjon per capita
  39. Utgifter per oppholdsdøgn på helseinstitusjon per capita
 
Etter å ha vasket, ryddet og normalisert datamaterialet legger jeg til antall registrerte smittet med COVID-19 per 5. juni 2020, og antall per innbygger. Det gir et bilde av hvor hardt kommunene har vært rammet av første (forhåpentligvis siste) koronabølge.

hva har kommunene med mest korona til felles?

Det finnes regler for hvor stor en korrelasjonsmatrise burde være. Her bryter jeg den regelen. Når jeg viser korrelasjonene mellom mer enn 40 dimensjoner blir korrelasjonsmatrisen alt for stor. Hvis jeg i tillegg hadde inkludert navnene på dimensjonene ville den blitt helt umulig å lese. Heldigvis kan du se hvilke dimensjoner som krysses ved å føre musepekeren over matrisen. Antall registrerte smittede, og antall smittede per innbygger finner du i kolonnene lengst til høyre (eller de nederste radene). 

Det mest interessante i en slik matrise er de cellene med veldig høye, eller veldig lave tall (+1 eller -1). Det vil si de dimensjonene med veldig høy eller veldig lav samvariasjon. Ta ett minutt til å studere matrisen og se om noe stikker seg ut? 

Tallene i tabellen (korrelasjonskoeffisienten) varierer mellom -1 og 1:

  • Hvis korrelasjonen mellom to dimensjoner er 0 så betyr det at de to dimensjonene ikke har noe med hverandre å gjøre.
  • Hvis korrelasjonen er over 0 så betyr det at at økning i den ene ofte assosieres med økning i den andre. Jo høyere korrelasjonskoeffisienten er, jo sterkere kan sammenhengen være. 
  • Hvis korrelasjonen er under 0 så betyr et at økning i den ene dimensjonen ofte skjer sammen med at den andre faller. Jo lavere korrelasjonen er, jo sterkere kan sammenhengen være.

De fleste cellene som skiller seg ut i korrelasjonsmatrisen (med veldig lave eller høye verdier) er lite overraskende. Det er for eksempel høy korrelasjon mellom:

  • inntekt per husholdning og antall personer per husholdning, og…
  • antall personer per husholdning og andelen innbyggere under 19 år, og…
  • andelen innbyggere under 19 år, og inntekt per husholdning.

 

Det er ikke vanskelig å se at disse henger sammen.

Når det gjelder Korona ser vi en veldig sterk sammenheng mellom antall registrerte smittede og antall innbyggere i kommunen. Det er heller ikke overraskende. Når vi justerer antall smittede per innbygger så forsvinner den sammenhengen.

Vi reduserer dimensjonaliteten

Det kan være mange interessante sammenhenger å oppdage i korrelasjonsmatrisen ovenfor, men den er også så stor at det er lett å gå seg vill. Spesielt når vi har en spesifikk variabel vi ønsker å studere, som i dette tilfellet. 

 

For å finne ut hva kommunene med mest korona har til felles må vi redusere dimensjonaliteten. Det kan vi gjøre ved å gjøre ett uttrekk fra korrelasjonsmatrisen, men det er jo litt mer moderne å kjøre en random forests algoritme. Den beregner og rangere input-variablene etter hvor viktig de er til å predikere antall smittede per innbygger. Beregningene gjøre på 50% av kommunene, og resultatet testes på de resterende 50%.

Random forests er en enkel form for maskinlæring. Som navnet indikerer baserer den seg på beslutnings trær (mange trær blir en skog). Algoritmen stiller en rekke spørsmål for å snevre seg inn mot de dimensjonene som er viktigst. 

Søylene nedenfor rangerer de 15 viktigste dimensjonene for å predikere antall smittede per innbygger:

Det ser ut som at de kommunene med høyest befolkningsvekst de siste to årene også er de kommunene med flest koronasmittede. Men det ser også ut som de kommunen med flest innbyggere ofte også er de kommunene med størst befolkningsvekst, som også er de kommunen med flest besøk per kinoforestilling. Med andre ord har vi mange dimensjoner som vi egentlig kunne (burde) redusert til en dimensjon (for eksempel antall innbyggere).

Konklusjon

Presisjonen av kommunekarakteristikkene er lav, og gir oss ikke egentlig noe ny informasjon av verdi. Resultatene virker ikke urimelige. Folk har en tendens til å søke seg til store byer, og i store byer er både befolkningstettheten større og trafikken inn og ut av byen er større, som legger forholdene til rette for at virus spres effektivt.

Si 👋 på Twitter hvis du syntes dette var interessant, eller meld deg på nyhetsbrevet mitt.

Stikkord:

Legg inn en kommentar