dinsdag 30 augustus 2011

Hoeveel tweeling-rijksambtenaren zijn er?

Niet heel belangrijk, maar het fascineert me wel...
Tijdens de rechtszaak over het gebruik van het BSN op de Rijkspas, betoogde de landsadvocaat dat het gebruik van het BSN noodzakelijk was, want "er lopen bijvoorbeeld te veel ambtenaren rond die dezelfde voorletters, achternaam en geboortedatum hebben."
Ik weet best dat het voorkomt hoor, mensen met dezelfde geboortedatum, voorletters en achternaam.
Iemand wees me al op Jan de Vries die in allebei op 11 februari 1817 geboren zijn.
En iemand anders vertelde over een familielid, die een beroepsgenoot had met dezelfde achternaam, voorletters, geboortedatum en geboorteplaats als hij. Dit leverde op een gegeven moment allerlei heel nare problemen op.

Maar nu wil ik eigenlijk alleen weten: kan ik schatten om hoeveel ambtenaren het hier gaat? Een "sigarendoosjes-schatting" dus van het aantal rijksambtenaren dat dezelfde achternaam, voorletters en geboortedatum heeft.

Welke relevante informatie is beschikbaar.
  1. Er wonen circa 16 miljoen mensen in Nederland.
  2. De beroepsbevolking omvat ongeveer 8.600.000 mensen
  3. Het Meerstens-instituut bericht dat er in 2007 circa 314.000 verschillende achternamen in gebruik waren in Nederland.
  4. Volgens In Overheid werkten er in 2010 974.000 mensen in "de publieke sector", waarvan 124.000 bij de Rijksoverheid.
  5. Er zijn 365 dagen in een jaar
  6. De leeftijd van rijksambtenaren ligt tussen de 18 en de 65, wat dus 47 geboortejaren zijn
Eens kijken hoever we komen...

Hoeveel rijksambtenaren zijn tegelijk jarig?
124.000 : 365 = 340

Hoeveel ambtenaren hebben hetzelfde geboortejaar?
124.000 : 47 = 2640
Hierbij ga ik uit van een evenwichtige verdeling, wat natuurlijk niet zo is. De gemiddelde leeftijd van rijksambtenaren ligt waarschijnlijk tussen de 40 en de 45. Dit betekent vast iets voor mijn berekening - het aantal ligt waarschijnlijk hoger - maar dat negeer ik even.

Hoeveel ambtenaren hebben dan dezelfde geboortedatum?
2640 : 340 = 8

Binnen de Rijksoverheid zouden er dus maar 8 (of 16 ik ben er niet uit of ik nu paren of individuen heb uitegrekend) ambtenaren zijn met dezelfde geboortedatum.
Zelfs als ik corrigeer voor de onevenwichtige verdeling van de geboortejaren, door - ik noem maar iets - met een factor 10 te vermenigvuldigen, zijn dit dus maar 80 (of 160) mensen.

Is er een statisticus in de zaal?
Want, als bovenstaande berekening klopt, hoef ik niet eens meer te gaan rekenen aan het aantal achternamen dat rijksambtenaren kunnen hebben en hoeveel er dan dezelfde achternaam en geboortedatum hebben. Dat kunnen er dan nog maar heeeeel weinig zijn.

Het kunnen er natuurlijk wel "te veel" zijn, maar dat is een kwestie van interpretatie...

Plaatje: Twins van Christian Bachelier, maar eigenlijk van Roger Ballen natuurlijk

15 opmerkingen:

  1. Leuke blog, Ingmar!
    Maar vergeet je niet nog een kansberekening te maken voor hoe vaak tweelingen voorkomen binnen de Nederlandse populatie, als bijkomstige factor? Ik neem je term 'tweeling-ambtenaren dan natuurlijk wel letterlijk ...
    Sinds de introductie van IVF (sinds?) zal dit overigens wel vaker zijn dan vroeger en het aantal tweeling-ambtenaren dus ook doen toenemen.

    BeantwoordenVerwijderen
  2. Pff, nu maak je het wel heel moeilijk... 

    Weet je wat, ik tel er gewoon nog 10 bij op ;-)

    BeantwoordenVerwijderen
  3. Het argument van de advocaat lijkt mij een echte drogreden. Zelfs al zou je in staat zijn de kans te berekenen dat 2 van jouw 8-160 ambtenaren een zelfde achternaam hebben, en je daar nog eens een berekening overheen doet hoeveel er van die uitkomst weer gelijke voorletters hebben, dan durf ik er wel een fles aangename wijn op te zetten dat dat getal nul (0) is. Maar eens afwachten of de rechterlijke macht hier doorheen prikt...

    BeantwoordenVerwijderen
  4. Ja Peter, ik denk dat het uiteindelijk dicht in de buurt van de 0 uitkomt, dat was mijn eerste indruk ook al (al zou ik het eigenlijk wel willen kunnen berekenen...)
    Overigens, rechters mogen Googelen, dus misschien komen ze nog op dit weblog terecht ;-)

    BeantwoordenVerwijderen
  5. Ik moet zeggen dat ik nog verrassend weinig heb wakker gelegen van mijn bsn op mijn paspoort, rijbewijs en belastingformulieren. Ik ben bang dat ik evenmin wakker zal liggen van een bsn op de rijkspas. Het is veel vervelender als je voor een ander aangezien wordt omdat je GEEN bsn kan/mag gebruiken. Dan ga ik zeker wakker liggen.

    BeantwoordenVerwijderen
  6. Beste Ton,
    Was 't maar zo dat 't BSN beperkt bleef tot paspoort, rijbewijs en belastingdienst. Ik ben bang dat dat nummer op veel meer plekken bewaard en gebruikt wordt dan je denkt (en misschien fijn vindt).
    Het vervelende van 't gebruik van 't BSN op steeds meer plekken, is dat 't ook steeds makkelijker wordt om 'n combinatie van naam - BSN - geboortedatum te achterhalen, wat identiteitsdiefstal steeds makkelijker maakt. Dus dan geldt 't tegenovergestelde van wat jij nu schrijft. Ik zeg dat ik jou ben, doordat ik jouw BSN ken en gebruik.

    Op 31-08-11 heeft Disqus<> het
    volgende geschreven:

    BeantwoordenVerwijderen
  7. In de eerste plaats ben ik ook geen statisticus. Wel ben ik een tweeling (van sterrenbeeld dan) met een iets meer dan gemiddelde interesse in het gebruik van persoonsgegevens.
    Volgens mij zit je denkfout in het continue (staart)delen van de gegevens; bij kansberekening, het enige waar ik goed in was binnen het vak Wiskunde A, gaat het om een bepaalde frequentie die je juist vermenigvuldigt.

    Eerst een eenvoudig voorbeeld. Hoe vaak is het wel niet voorgekomen dat je persoon x binnen een organisatie opbelde of anderszins wilde contacteren en je iemand anders met dezelfde naam aan de lijn kreeg? Dit geeft alvast te denken, lijkt mij zo. Maar nu terug naar de namenredenering.

    Je hebt een x bestand van unieke achternamen, zeker, maar waar het hier gaat is om de combi van voor-en achtervoegsels plus geboortedata toch? Dus de D. de Boers, H. Jans(s)en(s), I. Mustafa's van deze wereld. Reken maar dat dat vaak voorkomt binnen je bestand van 314.000.

    Vervolgens ga je uit van een geboortecohort: een spreiding van zeg tussen de 18 en 65 (67) jaar: het bovenstaande komt dus ELK jaar een x aantal malen voor, en is niet een eenmalige gebeurtenis; hier moet je juist gaan vermenigvuldigen!

    Bedenk dan ook nog eens dat je 'slechts' op 365 dagen per jaar geboren kunt worden. Je populatie zal hoe dan ook vele malen groter zijn dan dit getal: ergo de KANS op een gelijke voor-en achternaam plus geboortedatum is dus eigenlijk best groot.

    Zelfs met mijn ongetwijfeld niet-geheel-volgens de-regels-van kansberekening redenatie (het is al weer zo'n 25 jaar geleden) schat ik - verder kom ik helaas ook niet - de groep tweeling-rijksambtenaren in op een aantal honderden, zo niet enige duizenden gevallen. Of dit een voldoende steekhoudend argument is van de landsadvocaat, laat ik hier verder buiten beschouwing.

    Zullen we er eventueel een prijsvraag van maken? Of een eindexamenvraag volgend jaar bij wiskunde?

    BeantwoordenVerwijderen
  8. Via e-mail kreeg ik vanmorgen onderstaande reactie binnen. Met dank aan I & A denk ik dat we er nu uit zijn. 
    "Ingmar ziet iets over het hoofd: Op elke dag van het jaar zijn gemiddeld
    340 ambtenaren jarig en als je dan deelt door het aantal verschillende
    leeftijden dat ze kunnen hebben (uitgaande van een gelijke verdeling) dan krijg
    je dat OP ELKE DAG VAN HET JAAR circa 8 ambtenaren met dezelfde leeftijd jarig
    zijn. Elke ambtenaar heeft dus waarschijnlijk 8 collega's met dezelfde
    leeftijd.Dit vraagstuk kun je beter benaderen
    vanuit de kansrekening. Je kunt de kans berekenen dat een ambtenaar met een
    bepaalde naam die op een bepaalde dag in een bepaald jaar jarig is een collega
    heeft die hetzelfde heet en op dezelfde dag in hetzelfde jaar jarig is. Dit is
    de kans dat een collega op dezelfde dag jarig is (1/365) maal de kans dat deze
    in hetzelfde jaar geboren is (1/47 of iets minder bij een niet-gelijke
    verdeling) maal het aantal collega's (124000) maal de kans dat de naam hetzelfde
    is. Die laatste kans is uitgaande van een normale verdeling erg klein
    (1/314000), maar omdat er relatief veel mensen Jansen, de Jong of de Vries heten
    in werkelijkheid wat groter. Om dubbeltelling te voorkomen moet je dan nog door
    2 delen. Je komt dan op 0,00001151. Oftewel op elke grofweg 100000 ambtenaren is
    er een ambtenaar met dezelfde leeftijd en achternaam. De kans is dus klein, maar
    niet onmogelijk en bij 124000 ambtenaren is het zelfs erg waarschijnlijk. Als we
    echter ook nog de voorletters meenemen dan wordt de kans nog weer een stuk
    kleiner (laten we zeggen een factor 50, dus 1 op elke 6,2 miljoen ambtenaren.
    Aan de andere kant denk ik dat de ongelijke verdeling van achternamen en
    voorletters juist weer leidt tot een substantieel grotere kans. Al met al blijft
    de conclusie - ook gezien het feit dat het ambtenarencorps jaar in jaar uit
    wordt ververst: kleine kans, maar niet onmogelijk."De kans dat er twee (!) rijksambtenaren met dezelfde voorletters, achternaam en geboortedatum zijn, is klein, maar reëel.Of heeft nog iemand anders een betere oplossing?

    BeantwoordenVerwijderen
  9. Wat vind je van onderstaande oplossing? 

    BeantwoordenVerwijderen
  10. Mooi!
    Als je daarna de kans berekent met de variabele 'geboorteplaats' erbij,wordt de kans nog kleiner. Als je dan ook nog de werkplek (dus het ministerie) in de vergelijking meeneemt, dan wordt de kans onwaarschijnlijk klein.
    Niettemin: een kans is een kans. Het geeft aan dat het wetenschappelijk niet onmogelijk is. Het kan dus voorkomen dat er zo'n Rijksambtenarenpaar binnen een ministerie voorkomt.
    Qua risicomanagement zou ik me er overigens niet al te druk over maken. Want het feit dat een verkeerde pas wordt uitgereikt én dat daar misbruik van wordt gemaakt is wéér veel kleiner.

    BeantwoordenVerwijderen
  11. Volgens mij kloppen je redeneringen niet omdat de verdelingen zo scheef zijn. Dat geldt voor al deze variabelen:
    * er zijn achternamen die veel vaker voorkomen dan andere (Jansen, de Jong)
    * er zijn voorletters die veel vaker voorkomen dan andere (J, M)
    * er zijn geboortejaren die veel vaker voorkomen dan andere (periode 1960-1970)
    * er zijn geboortemaanden die vaker voorkomen dan andere (met september als topper, zie http://www.cbs.nl/nl-NL/menu/themas/bevolking/publicaties/artikelen/archief/2004/2004-1423-wm.htm )

    De kans dat er twee ambtenaren genaamd J. de Jong zijn die op dezelfde septemberdag in de jaren '60 geboren zijn is dus best reëel. 

    Daarbij zijn alle ambtenaren weer een losse 'trekking zonder terugleggen'. Je kunt dus niet zeggen dat de volgende ambtenaar niet dezelfde geboortedatum zal hebben omdat die al 'bezet' is.

    Een voorbeeldje: Stel dat je geen rekening houdt met de scheve verdeling van achternamen. Dan kom je uit op 124.000/314.000 = 0,39 ambtenaar per achternaam. We snappen allemaal dat dat voor veel achternamen niet opgaat vanwege die scheve verdeling.  

    BeantwoordenVerwijderen
  12. Nog vergeten: een studiegenoot van mij had dit probleem trouwens. Er was nog iemand met dezelfde voorletters, achternaam en geboortedatum. Een aantal instanties hadden ten onrechte haar BSN aan die (mannelijke) naamgenoot gekoppeld. Dat was pas echt een nachtmerrie!

    BeantwoordenVerwijderen
  13. Overigens, in het zittingsverslag van Brenno de Winter op Webwereld (http://webwereld.nl/nieuws/107739/minister---privacyschending--nodig-voor-rijkspas.html) staat dat volgens I&M alleen dit ministerie onder de ruim 18.000 ambtenaren al 15 mensen kent die dezelfde voor- en achternaam en geboortedatum hebben. Er staat 15 mensen, niet koppels, dus er zou ook één gegevensdrieling tussen kunnen zitten. Het is onduidelijk of ze van hetzelfde geslacht zijn en of de geboorteplaats verschilt.

    BeantwoordenVerwijderen
  14. Interessante aanvulling Chido, dank je. Als ik dat zo zie, zouden er bij de provincie Noord-Brabant (met ca 1500  medewerkers) toch ook al snel twee tweeling-ambtenaren moeten zijn...

    BeantwoordenVerwijderen
  15. Ontmoedigd legde hij het hoofd in de schoot...
    Al blijf ik de indruk hebben dat het er niet heel veel kunnen zijn.Overigens, de rechter heeft ondertussen gesproken: het BSN mag niet gebruikt worden.

    BeantwoordenVerwijderen