Vi har vel alle en idé om at i en kamp mellom Tyskland og Sveits vil det være større sjanse for at Tyskland vinner enn at Sveits vinner. Vi ønsker å formalisere slike betraktninger, slik at vi ved hjelp av en statistisk modell kan anslå sannsynligheten for H, U og B i enhver kamp, og faktisk også sannsynligheten for ethvert mulig resultat (0-0, 1-0, osv. har hver sin sannsynlighet). Ethvert lag tilordnes et styrketall, og ut fra styrketallene til to lag som møtes, skal en kunne avlese sannsynligheten for H, U og B. Styrketallene vil være noe a la FIFA-rankingen, men vil være mer direkte relatert til utfallet av enkeltkamper.
Før mesterskapet begynner fastsettes disse styrketallene ut fra deres FIFA-ranking og resultater i tidligere mesterskap.
Etter hvert som det spilles kamper i mesterskapet oppdateres styrketallene, slik at styrketallene bestemmes mer og mer ut fra de spilte kampene, og mindre og mindre ut fra forhåndsvurderingene. Eksempelvis vil Tyskland i utgangspunktet ha et bedre styrketall enn Sveits, men hvis Tyskland taper den første kampen, mens Sveits vinner, vil dette justeres noe i Sveits sin favør. Dog kan vi i modellen ikke ta hensyn til detaljer, som for eksempel at en sentral spiller er skadet, eller at både Tyskland og Sveits er klare for videre spill før de spiller siste kamp mot hverandre i gruppespillet.
Modell
Antall skårede mål til hvert av de to lagene i en kamp er avhengig av hvor gode de to lagene er i forhold til hverandre. Samtidig vil det i noen grad være tilfeldig hvor mange mål hvert lag skårer. La oss ta for oss en kamp hvor lag A møter lag B. I vår modell er antall mål som lag A skårer Poissonfordelt med parameter, dvs. et tall, \(L(A,B)\). Dette vil si at vi kan forvente at lag A skårer omtrent \(L(A,B)\) mål mot lag B. Her er
\[ L(A,B)=\text{Normalt antall mål}\times \frac{\text{Styrketall lag A}}{\text{Styrketall lag B}} \]
“Normalt antall mål” er en parameter (et tall) som angir hvor mange mål et lag typisk vil skåre i en kamp mellom to jevngode motstandere. “Styrketall lag A” er en parameter (et tall) som angir hvor godt lag A er, mens “Styrketall lag B” angir hvor godt lag B er. Styrketallet til Frankrike er fastsatt til 100, og styrketallene til de andre lagene må ses relativt til dette.
Tilsvarende er antall mål til lag B Poissonfordelt med parameter \(L(B,A)\). Utover dette antar vi uavhengighet mellom antall skårede mål til hvert av lagene.
Dette betyr at om lag A har et høyt styrketall i forhold til lag B, vil vi forvente at lag A skårer mange mål (fordi \(L(A,B)\) er stor) og lag B få mål (fordi \(L(B,A)\) er liten). Det vil i så fall være størst sannsynlighet for at lag A vinner kampen, men det vil også være en viss sannsynlighet for uavgjort eller at lag B vinner.
Modellen vi har valgt er enkel, og dekker selvsagt ikke alle viktige aspekter ved en fotballkamp. I mesterskapet vil vi ha få relevante data til å estimere parameterne i en modell, og vår relativt enkle modell med få parametre er valgt i henhold til dette. I andre sammenhenger med mer data, for eksempel seriespill over en hel sesong, kan man tenke seg en rekke utvidelser av modellen. Dette inkluderer blant annet:
- hjemmebanefordel
- en forsvarsstyrke og en angrepsstyrke til hvert lag
- styrken til hvert lag varierer over sesongen (formutvikling)
- antall skårede mål til lag A er avhengig av antall mål skårede mål til lag B
Det er publisert flere artikler om dette emnet i den statistiske litteraturen. En passende og lettlest introduksjon er Lee, A. (1997), “Modeling Scores in the Premier League: Is Manchester United Really the Best?”, Chance, Vol 10, s. 15-19.
Estimering av parametere
Parameterne i modellen er “Normalt antall mål” og styrketallene til de enkelte lag. Disse må estimeres, det vil si tallfestes, før vi kan beregne sannsynligheter. Før mesterskapet har vi i tidligere mesterskap brukt ekspertips. Denne gang bruker vi kampresultater fra de seks siste EM (2000-2021) sammen med de ulike lands FIFA-ranking ved innledningen til hvert mesterskap. Disse dataene bruker vi til å estimere en sammenheng mellom FIFA-ranking og styrketall ved hjelp av en litt annen statistisk modell enn hovedmodellen. I denne modellen estimerer vi også fordelen av at et land spiller på hjemmebane, samt en ekstra effekt utover hva som forklares av FIFA-rankingen for de land som har vært med i minst fire av de seks siste EM.
Hjemmebanefordelen estimeres til å være ganske stor. I årets mesterskap er det Tyskland som spiller på hjemmebane, og hjemmebanefordelen inngår dermed i Tysklands styrketall, Ekstraeffekten utover hva som kan forklares av FIFA-rankingen er størst for Italia, men langt mindre enn hjemmebanefordelen. Det vi si at i de foregående mesterskapene har det vært en tendens til at Italia har gjort det bedre enn deres FIFA-ranking skulle tilsi. Dermed blir styrketallet for Italia noe bedre enn hva dagens FIFA-ranking skulle tilsi. I sum betyr dette at styrketallene stort sett vil følge FIFA-rankingen når mesterskapet starter, men med små justeringer for en del land, og med en kraftig oppjustering for Tyskland.
Etter hvert som kampene i mesterskapet blir spilt, blir også resultatene i disse brukt til å estimere parameterne. Informasjonsmengden fra tidligere mesterskap og årets mesterskap blir vektet i forhold til hverandre, slik at tidligere mesterskap totalt sett har like stor betydning som kampene i dette mesterskapet etter at hvert lag har spilt tre kamper.
Estimering av parameterne vil si at de tallfestes slik at de passer best mulig til dataene (kampresultatene). I vårt tilfelle estimeres parameterne ved å maksimere en modifisert Poisson-likelihood. Forskjellen fra ordinær Poisson-likelihood er at den er gjort mer robust ved at store seire vektes ned.
Estimerte styrketall
Per i dag er “Normalt antall mål” estimert til å være 1.12.
De estimerte styrketallene er gjengitt i tabellen under (sortert), sammen med FIFA-rankingen per 4. april 2024. Vi ser at de to kriteriene gir noe ulik rangering av lagene. Dette skyldes for det første at forhåndsvurderingen av lagene ikke er eksakt lik FIFA-rankingen, som forklart over. For det andre vil styrketallene også påvirkes av kampresultatene som er spilt så langt i mesterskapet.
Oppdatert: Jul 14 2024 23:02