Hva har kommunene med mest korona til felles?

Har du lurt på om kommunene med flest smittetilfeller av korona har noe til felles? Og eventuelt hva har kommunene med mest korona til felles? Det gjorde jeg. I dette innlegget sjekker vi korrelasjon mellom antall smittet med korona og 40 kommunekarakteristikker fra Statistisk Sentralbyrå (ssb.no).

Disse krysset jeg så med totalt antall koronasmittede fra Folkehelseinstituttet (fhi.no), nå når første bølge ser ut til å være over.

Forklaringsgraden er ikke sterk, men det ser ut til at de hardest rammede kommunen også har den høyeste befolkningsveksten, relativt få innbyggere som bor i enebolig, og relativt fulle kinosaler.

Dette er ikke så overraskende når vi vet at de største byene har blitt hardest rammet. Kanskje er dette innlegget mer å betrakte som en skråblikk på naive korrelasjonsanalyser enn kilde til ny innsikt. Men hvis du liker den slags håper jeg du blir med videre og ser flere eksempler på hvorfor samvariasjon (korrelasjon) ikke nødvendigvis er det samme som sammenheng.

Her er en lignende analyse av hvor sårbare norske kommuner er mot COVID-19

40 kommunekarakteristikker fra ssb

For å finne korrelasjon mellom antall smittet med korona og kommunekarakteristikker tar jeg utgangspunkt i kommunefakta-siden til ssb. Her er dimensjonene jeg endte opp med å hente ut for hver kommune i Norge:

Personer per privathusholdning
Enfamiliehusholdninger med voksne barn
Andel fedre som tar hele fedrekvoten eller mer av foreldrepengeperioden
Forholdet mellom menn og kvinners bruttoinntekt
Kjønnsfordeling blant ledere
Andel innvandrere
Innenlandsk nettoinnflytting per capita
Netto inn- og utvandring per capita
Nettoinnflytting per capita
Antall dødsfall 2019
Antall innbyggere 2019
Befolkningsvekst (to år, %) Antall som bor romslig
Antall som bor trang
Andel i annen boligbygning
Andel i boligblokk
Andel i enebolig
Andel i rekkehus
Andel i tomannsbolig
Andel i andels-bolig
Andel i leiebolig
Andel i selveier
Antall fritidsbygninger
Andel mellom 0-19 år
Andel mellom 20-64 år
Andel over 65 år
Andel med yrke i jordbruk, skogbruk og fiske
Andel med yrke i off.adm., forsvar, sosialforsikring
Andel med yrke i personlig tjenesteyting
Andel med yrke i sekundærnæringer Andel med yrke i undervisning
Andel med uoppgitt yrke
Andel med yrke i varehandel, hotell og restaurant, samferdsel, finanstjen., forretningsmessig tjen., eiendom
Inntekt per husgholdning (median)
Besøk per kinoforestilling
Antall frivillige lag og foreninger per cappita
Andel medlem i den norske kirke
Andel medlemmer i tros-samfunn utenfor Den norske kirke
Mottakere av hjemmestjenester per capita
Antall plasser i helse- og omsorgsinstitusjon per capita
Utgifter per oppholdsdøgn på helseinstitusjon per capita

Etter å ha vasket, ryddet og normalisert datamaterialet legger jeg til antall registrerte smittet med COVID-19 per 5. juni 2020, og antall per innbygger. Det gir et bilde av hvor hardt kommunene har vært rammet av første (forhåpentligvis siste) koronabølge.

hva har kommunene med mest korona til felles?

Det finnes regler for hvor stor en korrelasjonsmatrise burde være. Her bryter jeg den regelen. Når jeg viser korrelasjonene mellom mer enn 40 dimensjoner blir korrelasjonsmatrisen alt for stor. Hvis jeg i tillegg hadde inkludert navnene på dimensjonene ville den blitt helt umulig å lese. Heldigvis kan du se hvilke dimensjoner som krysses ved å føre musepekeren over matrisen. Antall registrerte smittede, og antall smittede per innbygger finner du i kolonnene lengst til høyre (eller de nederste radene).

Det mest interessante i en slik matrise er de cellene med veldig høye, eller veldig lave tall (+1 eller -1). Det vil si de dimensjonene med veldig høy eller veldig lav samvariasjon. Ta ett minutt til å studere matrisen og se om noe stikker seg ut?

Tallene i tabellen (korrelasjonskoeffisienten) varierer mellom -1 og 1:

Hvis korrelasjonen mellom to dimensjoner er 0 så betyr det at de to dimensjonene ikke har noe med hverandre å gjøre.
Hvis korrelasjonen er over 0 så betyr det at at økning i den ene ofte assosieres med økning i den andre. Jo høyere korrelasjonskoeffisienten er, jo sterkere kan sammenhengen være.
Hvis korrelasjonen er under 0 så betyr et at økning i den ene dimensjonen ofte skjer sammen med at den andre faller. Jo lavere korrelasjonen er, jo sterkere kan sammenhengen være.

De fleste cellene som skiller seg ut i korrelasjonsmatrisen (med veldig lave eller høye verdier) er lite overraskende. Det er for eksempel høy korrelasjon mellom:

inntekt per husholdning og antall personer per husholdning, og…
antall personer per husholdning og andelen innbyggere under 19 år, og…
andelen innbyggere under 19 år, og inntekt per husholdning.

Det er ikke vanskelig å se at disse henger sammen.

Når det gjelder Korona ser vi en veldig sterk sammenheng mellom antall registrerte smittede og antall innbyggere i kommunen. Det er heller ikke overraskende. Når vi justerer antall smittede per innbygger så forsvinner den sammenhengen.

Vi reduserer dimensjonaliteten

Det kan være mange interessante sammenhenger å oppdage i korrelasjonsmatrisen ovenfor, men den er også så stor at det er lett å gå seg vill. Spesielt når vi har en spesifikk variabel vi ønsker å studere, som i dette tilfellet.

For å finne ut hva kommunene med mest korona har til felles må vi redusere dimensjonaliteten. Det kan vi gjøre ved å gjøre ett uttrekk fra korrelasjonsmatrisen, men det er jo litt mer moderne å kjøre en random forests algoritme. Den beregner og rangere input-variablene etter hvor viktig de er til å predikere antall smittede per innbygger. Beregningene gjøre på 50% av kommunene, og resultatet testes på de resterende 50%.

Random forests er en enkel form for maskinlæring. Som navnet indikerer baserer den seg på beslutnings trær (mange trær blir en skog). Algoritmen stiller en rekke spørsmål for å snevre seg inn mot de dimensjonene som er viktigst.

Søylene nedenfor rangerer de 15 viktigste dimensjonene for å predikere antall smittede per innbygger:

Det ser ut som at de kommunene med høyest befolkningsvekst de siste to årene også er de kommunene med flest koronasmittede. Men det ser også ut som de kommunen med flest innbyggere ofte også er de kommunene med størst befolkningsvekst, som også er de kommunen med flest besøk per kinoforestilling. Med andre ord har vi mange dimensjoner som vi egentlig kunne (burde) redusert til en dimensjon (for eksempel antall innbyggere).

Konklusjon

Presisjonen av kommunekarakteristikkene er lav, og gir oss ikke egentlig noe ny informasjon av verdi. Resultatene virker ikke urimelige. Folk har en tendens til å søke seg til store byer, og i store byer er både befolkningstettheten større og trafikken inn og ut av byen er større, som legger forholdene til rette for at virus spres effektivt.

Si på Twitter hvis du syntes dette var interessant, eller meld deg på nyhetsbrevet mitt.

Cookie	Duration	Description
_abck	1 year	This cookie is used to detect and defend when a client attempt to replay a cookie.This cookie manages the interaction with online bots and takes the appropriate actions.
ak_bmsc	2 hours	This cookie is used by Akamai to optimize site security by distinguishing between humans and bots
bm_sz	4 hours	This cookie is set by the provider Akamai Bot Manager. This cookie is used to manage the interaction with the online bots. It also helps in fraud preventions
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
csrftoken	1 year	This cookie is associated with Django web development platform for python. Used to help protect the website against Cross-Site Request Forgery attacks
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duration	Description
_strava4_session	session	Used by Strava to store user session information for the Strava club.
GCLB	session	This cookie is known as Google Cloud Load Balancer set by the provider Google. This cookie is used for external HTTPS load balancing of the cloud infrastructure with Google.

Cookie	Duration	Description
__gads	1 year 24 days	The __gads cookie, set by Google, is stored under DoubleClick domain and tracks the number of times users see an advert, measures the success of the campaign and calculates its revenue. This cookie can only be read from the domain they are set on and will not track any data while browsing through other sites.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_145708938_1	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duration	Description
IDE	1 year 24 days	Google DoubleClick IDE cookies are used to store information about how the user uses the website to present them with relevant ads and according to the user profile.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duration	Description
NOW	4 days 4 hours	No description available.
plotly_anoncsrf_pr	1 day	No description available.
plotly_csrf_pr	1 year	No description available.
plotly_sess_pr	14 days	No description available.
sessionid	session	No description
wpcom_highlander_3pc_check	session	No description