Pricing

Bron: Generalized Linear Models For Insurance Rating
(Mark Goldburd, Anand Khare, Dan Tevet, Dmitriy Guller)

Weet je al? 😉

 

In dit focusgebied wordt de premie berekening volgens de GLM (Gegeneraliseerde Lineaire Modellen) methodiek voor schadeverzekeringen toegelicht.

Eerst worden hier de premiecomponenten beschreven die de klant betaalt. Daarna wordt vanaf hoofdstuk 2 de GLM methode voor de berekening van de premie uitgebreid toegelicht.

Premiecomponenten

De premie die een klant voor een schadeverzekering betaalt, valt in een aantal componenten op te splitsen. De eerste component is het gedeelte van de premie dat voor schade-uitkeringen beschikbaar wordt gesteld. Dit wordt de risicopremie genoemd. De risicopremie is vergelijkbaar met de netto premie die bij levensverzekeringen wordt gehanteerd. Een verschil tussen de risicopremie bij schadeverzekeringen en de netto premie bij levensverzekeringen is dat bij het berekenen van de risicopremie geen rekening met interest wordt gehouden. De reden hiervoor is dat de meeste uitkeringen binnen een jaar na het ontvangen van de premie plaatsvinden. De interest is voor schadeverzekeringen dus relatief laag. De klant ontvangt wel een korting voor de interestbaten, maar deze korting valt buiten de risicopremie.

Naast de risicopremie betaalt de klant premie voor:

  • Provisie
  • Bedrijfskosten
  • Herverzekeringslast
  • Winstopslag
  • Kapitaalkosten (kosten voor het aanhouden van kapitaal)
  • Assurantiebelasting

1 Inleiding

Een General Linear Model is een manier om relaties aan te tonen tussen een variabele waarvan we de uitkomsten proberen te voorspellen (target variabele) en één of meerdere predictor variables.

Predictor variabelen zijn de onafhankelijke variabelen en worden genoteerd met xi (i = 1 t/m n) waarbij n het totale aantal onafhankelijke variabelen in het model betekend.

De variabele waarvan we de uitkomst proberen te voorspellen wordt ook wel de target variable genoemd en wordt genoteerd met y. Dit is ook wel de afhankelijke variabele.

Voor een variabele op interval of ratio niveau zal een GLM een schatting geven op de verwachte waarde van de uitkomst. Voor een nominale of ordinale variabele kan een GLM gebruikt worden om de kans uit te rekenen dat één van de opties voor y zal plaatsvinden.

1.1 GLM componenten

Er wordt vanuit gegaan dat bij een GLM de uitkomst voor de target variable beïnvloed wordt door twee componenten: een systematisch component en een random component. De systematische component is het gedeelte van het antwoord dat gerelateerd is aan de waarden van de onafhankelijke variabelen. Het random component is het gedeelte dat hier niet aan gerelateerd is.

Het doel van een model maken met GLM’s is om de uitkomst zoveel mogelijk te kunnen ‘verklaren’. Dit wordt gedaan door zoveel mogelijk componenten die de uitkomst kunnen beïnvloeden te identificeren en als systematische component te gebruiken.

Lees meer

 

1.2 Variantie bij de exponentiële familie

Belangrijk is om te onthouden hoe de parameters worden gebruikt:

Gemiddelde                       Het gemiddelde van elke kansverdeling lid van de exponentiële verdeling is gelijk aan µ.

Variantie                           De variantie wordt geschreven in de volgende vorm:                                                     Var[y] = ɸ*V(µ)

De variantie van een kansverdeling lid van de exponentiële verdeling is gelijk aan de spreiding vermenigvuldigt met een functie van µ. Deze functie wordt de variance function genoemd en wordt genoteerd met V(µ). De daadwerkelijke functie van V(.) wordt bepaald door de kansverdeling die gebruikt wordt.

Bij een normale verdeling is deze variance function gelijk aan 1. Dit komt dus neer op een variantie van ɸ*1. De waarde voor de variantie in een normale verdeling is dus constant en onafhankelijk van het gemiddelde. Voor alle andere verdelingen is V(µ) wel een functie van µ.

Door het gebruiken van de variance function hoeft de variantie niet constant te zijn voor elk risico. Op deze manier is de spreiding wel nog constant, wat één van de voorwaarden is van een GLM.

 

1.3 Significantie van de variabele

Goed om te onthouden is dat elke waarde van de coëfficiënten niks meer zijn dan een schatting van de daadwerkelijke waarde. Af te vragen is dus of deze schattingen redelijk dichtbij liggen bij de daadwerkelijke waarden. Ook is af te vragen of de predictor enig effect heeft op de uitkomst. GLM-software geeft statistieken terug om antwoord te geven op deze vragen: de standard error, de p-waarde en het betrouwbaarheidsinterval.

Lees meer

 

1.4 Verschillende typen predicator variabelen

De predictor variabelen kunnen worden onderverdeeld in twee typen:

Continue variabele         een numerieke variabele die een maatstaaf representeert op een continue schaal.

Categoriale variabele    een variabele die één van twee of meerdere mogelijke waarden aanneemt. Deze mogelijkheden worden categorieën genoemd. Deze categoriale variabele kan zowel numeriek als niet-numeriek zijn.

Hoe met de predictor variabelen om moet worden gegaan is specifiek per type.

Lees meer

 

1.5 Weights

Een weight variable geeft een bepaalde waarde (gewicht) aan elke observatie in een dataset. Observaties met een relatief groot gewicht hebben meer invloed in de analyse dan observaties met een kleiner gewicht. Dit gewicht wordt toegepast, als een variantie zwaarder weegt dan andere varianties. In formule vorm ziet het er zo uit:

Var[yi]= ɸV[µi ]/ ωi

Er bestaat dus een inverse relatie tussen de variantie en het gewicht van een observatie.

In een schadelast dataset kan één rij bijvoorbeeld het gemiddelde schadebedrag voor verschillende claims vertegenwoordigen, allemaal met dezelfde waarden voor alle voorspellende variabelen. Of misschien vertegenwoordigt een rij in een risicopremie-dataset de gemiddelde risicopremie voor meerdere polissen met dezelfde kenmerken (misschien behorend tot dezelfde verzekerde). In dergelijke gevallen is het intuïtief dat rijen die een groter aantal risico’s vertegenwoordigen, meer gewicht krijgen bij de schatting van de modelcoëfficiënten, omdat hun output-waarden op meer gegevens zijn gebaseerd. GLM’s komen hieraan tegemoet doordat de gebruiker of specialist een gewichtsvariabele kan opnemen, die het gewicht specificeert dat aan elk record in het schattingsproces wordt gegeven.

1.6 Offsets

Een offset is feitelijk een andere x-variabele in de regressie, met een β-coëfficiënt die gelijk is aan één. Offsets worden gebruikt om groepsgrootte of verschillende observatieperioden te corrigeren.

Dit ziet er zo uit in de verhouding:

g(µi) = β0 + β1xi1 + β2xi2 + … + βpxip + offset

Voorbeeld:

De waarnemingsduur van de aantallen waargenomen schadegevallen op verzekeringscontracten c.q. polissen varieert in het algemeen. Middels een offset in het frequentiemodel wordt bij het modelleren hiermee rekening gehouden. De fractie van het jaar dat er sprake was van een risicoblootstelling wordt aangegeven middels ti. Daar verondersteld is dat de waargenomen schadeaantallen op jaarbasis Poisson (li) verdeeld zijn, wordt het aantal schadegevallen Ni gedurende de verzekeringsperiode Poisson (ti li) verdeeld verondersteld.

1.7 An Inventory of Distributions

We weten onderhand dat de doelfunctie een onderdeel is van de exponentiële familie maar hoe beslis je welke verdeling je kiest. De uiteindelijke uitkomst heeft een bepaald doel. Aan de hand van deze doelen kan je makkelijk de verdelingen onderverdelen en kiezen.

Lees meer

 

1.8 Correlatie tussen predictors en aliasing

De GLM is betrouwbaar door de samenhangende beoordelingsvariabelen. Dit maakt een GLM erg krachtig.

Als de samenhang tussen twee voorspellers groot is kan dit voor een probleem zorgen bij een GLM. Omdat ze zo dichtbij elkaar liggen kan het zijn dat de voorspellers twee keer het model ingaan in plaats van één keer. Hierdoor kan het model een vertekend beeld geven en wordt het model instabiel.

Als de samenhang van de voorspellers gelijk is aan elkaar zou het GLM geen uitkomst bieden, aangezien er twee dezelfde variabele in zitten. Dit noemt men aliasing. De meest GLM-software gooit deze er vanzelf uit. Maar wanneer de variabelen bijna gelijk aan elkaar zijn gebeurd dit niet. Door deze hoge samenhang zou het model onstabiel zijn en niet betrouwbaar. Het is dus belangrijk dat voorspellers geen hoge samenhang hebben want anders is het model onstabiel en geeft het een vertekend beeld.

 

1.9 Beperkingen van de GLM

Een GLM is niet helemaal beperkingsvrij. In dit hoofdstuk komen de beperkingen aan bod.

GLM’s wijst zijn volledige geloofwaardigheid toe aan de data

Wanneer de data ongeloofwaardig is, dan wordt het GLM ook ongeloofwaardig. Om dit te voorkomen is het belangrijk zoveel mogelijk elementen vanuit het random component in de systematische component te stoppen.

Het is dus belangrijk om zoveel mogelijk informatie uit je data te halen en op basis daarvan systematische component zodanig aan te vullen dat de geloofwaardigheid van de data steeds groter wordt.

GLM’s neemt aan dat de willekeurige uitkomsten niet samenhangend zijn

De willekeurigheid van de uitkomsten dient niet samenhangend te zijn.  Dit houdt in dat als bijvoorbeeld een werknemer in zijn eerste jaar slecht presteert dat het in dit model niet vanzelfsprekend is dat die het jaar daarop ook waarschijnlijk niet goed presteert. Hier houdt het GLM geen rekening mee.

Hieronder zijn twee YouTube video’s te zien voor extra info over statistiek met behulp van R. De video’s zijn voorzien van een interactief element. In de video’s zijn er enkele vragen te vinden over de stof die er wordt uitgelegd.

 

 

 

2 Opstellen van het model

In dit hoofdstuk is een stappenplan opgesteld voor het maken van een Generalized Linear Model.

Lees meer

 

Hoofdstuk 4: Data voorbereidingen en overwegingen

Het voorbereiden van de data is één van de belangrijkste stappen in het proces en tevens de stap die meestal de meeste tijd vergt. Ondanks dat elk bedrijf andere processen heeft voor het verzamelen, opbergen en het ophalen van data, zullen er altijd gedeelten herkenbaar moeten zijn.

Belangrijk om te realiseren is dat de data preparatie iteratief (herhalend) is. Wanneer een fout ontdekt en vervolgens opgelost wordt kunnen meerdere fouten zichtbaar worden.

4.1 Combineren van Policy en Claim Data

In bijna elk geval is de data die het meest gepast is voor het maken van een classificatieplan de exposure-level premium (policy) en de loss (claim) data. Ideaal zou zijn als er per risico en per tijdseenheid één record is. Voor sommige regels voldoet het om claims te koppelen aan policy levels en het policy level te modelleren. Voor andere regels is het slimmer om te modelleren op individuele risico’s binnen een policy level.

Lees meer

 

4.2 Data Aanpassen

Elke grote dataset zal waarschijnlijk fouten bevatten. Om achter deze fouten te komen zijn er de volgende vragen vastgesteld:

Lees meer

 

 

4.3 Data Splitsen

Het is essentieel om de data te splitsen in twee groepen: De training set en de test (holdout) set.

Lees meer

 

 

Hoofdstuk 5: Het Bouwen van het Model

5.1 De Doelvariabele Kiezen

Het bepalen van de doel variabele hangt af van de data die is ontvangen en van de voorkeuren van de persoon die het model maakt. Er is vaak niet een juist antwoord dus is het handig om vaak verschillende opties te proberen.

Lees meer

 

5.2 De Verdeling Kiezen

Wanneer er een model gemaakt wordt van de claim frequentie dan kan gekozen worden tussen de Negatief Binomiale verdeling en de Poisson verdeling. Wanneer er een model gemaakt wordt van de hoogte van de claim dan kan gekozen worden tussen de gamma verdeling en de Inverse Gaussian verdeling.

 

5.3 Variabele Selectie

Variabele selectie: Het kiezen van welke variabele in het model toegevoegd moeten worden.

Lees meer

 

5.4 Variabelen Transformeren

Voor elke variabele die potentieel een predictor kan zijn is het niet alleen de bedoeling om te kijken of deze in het model geïncludeerd moet worden. Vaak moet de variabele getransformeerd worden zodat het model beter past bij de data. Continue variabelen en categoriale variabelen hebben beide andere redenen tot transformatie.

Lees meer

 

5.5 Groeperen Categoriale Variabelen

Categoriale variabele kunnen ver uit elkaar lopen. Denk hiervoor bijvoorbeeld aan de variabele leeftijd welke zeer veel mogelijke uitkomsten heeft. Daarom is het handig om bij een model de uitkomsten te groeperen. In plaats van leeftijden zoals 26,4 en 26,5 wordt het dan een leeftijd tussen 26 en 27. Zo is het overzichtelijker en kunnen de variabelen niet elke waarde aannemen. Op deze manier wordt een goed overzichtelijk beeld gecreëerd voor in het model.

 

5.6 Interacties

Momenteel is er voornamelijk focus gelegd op de individuele variabele die invloed heeft op de doelvariabele, maar het kan ook voorkomen dat verschillende variabelen samen invloed hebben op de doelvariabele. Zo’n samenhang van variabelen wordt een interactie genoemd.

Lees meer

 

Nu je het hoofdstuk hebt doorgelezen, beantwoord de volgende vragen:

 

Nu je deze pagina helemaal hebt doorlopen, maak nog eens de toets om te zien of je alles al weet: