3-18 Democracy.

Plottet drejede sig om fusk med den computerbaserede stemmeafgivning i dels Californien og dels hele USA.
Om der kan svindles med den slags, afhænger selvfølgelig af, hvem der har adgang til maskinerne, hvordan sikkerheden er omkring stemmeafgivningen, hvilke check, der laves af maskinerne, og hvem der laver dem etc.

Charlie bidrog med

En udregning af sandsynligheden for, at de 4 dødsfald blandt Rachels 25 kolleger var en tilfældighed.
Noget organisationsteori brugt på den kriminelle organisation bag fusk med stemmerne.
En analyse af data på det “Flash drive”, der var i Rachels ur.

Og så var der forøvrigt en morsom oversættelse på den DVD, jeg har. Algorithm var blevet til algorytme – shake it baby…

Sandsynligheden for, at dødsfaldene var tilfældige.
Charlie påstod, at sandsynligheden for, at det var tilfældigt, at 4 ud af de 25 personer døde indenfor 2 uger, var 1:10 millioner.
Don siger noget om forudsætningerne – det var 25-45 årige, men ikke alt er med i den endelige sammenklipning, så jeg gætter lidt.
Man skal vide, hvor mange, der gennemsnitligt dør indenfor den aldersgruppe i løbet af de to uger. Den slags data findes for USA her. Tallene siger, hvor mange ud af 100000, der dør i løbet af et år. Hvis man antager (og det er forkert), at dødsraten ikke afhænger af, hvornår på året, det er, skal man tage den årlige dødsrate og dividere med 26 for at finde dødsraten i en 2-ugers periode.
Charlie har gjort noget i den stil og fået 1/5000. Sansynligheden for, at en tilfældigt udvalgt person i den givne aldersgruppe falder død om i en bestemt to-ugers periode.
Nå, men der var jo 4 døde, og de døde i samme to-ugers periode. Man kan sige sig selv, at sandsynligheden så bliver endnu mindre. Charlies udregning på tavlen var noget i retning af: Vi har 25 personer. Vi vil finde sandsynligheden for, at 4 af dem tilfældigt dør i 2-ugers perioden.
Der er 25!/(4!⋅21!) måder, hvorpå man kan tage en gruppe på 4 personer ud af en gruppe på 25. Her er 25!= 25⋅24⋅23…⋅2⋅1 et stort tal, men det skal divideres med (25-4)!=21! og med 4!

25!/(4!⋅21!)=25⋅24⋅23⋅22/24=12650

Det skal så ganges med (1/5000)^4, hvor ^4 betyder “i fjerde”. (Sandsynligheden for, at 4 personer dør) og med (4999/5000)^21 (sandsynligheden for, at de sidste 21 ikke dør)
Jeg får  2,0155⋅ 10^(-11)= 1:49615081730 og det er meget mere (en mindre sandsynlighed), end Charlie fik. Men der er faktisk også en fejl. Vi skal ikke se på sandsynligheden for, at der dør 4 i en tilfældig periode, men at der dør 4, når der allerede er en, der er død, for det er jo der, vi “regner” – måler de to uger – fra. Lad X være antal døde, så vil vi udregne sandsynligheden for X=4, givet X>0. Skrives P(X=4|X>0)

Fra Bayes formel ved vi, at det kan udregnes som P(X=4)/P(X>0). Tælleren er det, vi har regnet ud ovenfor. Nævneren er P(X>0)=1-P(X=0) og P(X=0) er (4999/5000)^25

Jeg får P(X>0)=0,004988, og P(X=4|x>0)=4,040715223*10^(-9)=1:247480939, hvilket er ca 25 gange så meget (min sandsynlighed er 1/25 gange Charlies), som Charlie får. Sandsynlighedsteori er ikke så let – især, når man ikke helt ved, hvad han har regnet på…

For mere om dødsrater m.v., se Plus magazine. Det er rigtig godt skrevet af bl.a David Spiegelhalter, som virkelig ved, hvad han snakker om. Det burde oversættes til dansk. Man kan lege med diverse grafer, og jeg kan f.eks. se, at min forventede levealder falder med tre år, hvis jeg pludselig bliver en mand (og er englænder og er en gennemsnitsperson).

Organisationsteori

Der er mange måder, hvorpå man kan studere en organisation. Og mange teorier. Fra økonomi, sociologi, psykologi,… Charlie analyserede forbryderorganisationen og konkluderede, at en demograf og en programmør måtte have været involveret. Og han skrev til sidst en artikel til et tidsskrift, hvoraf det fremgik, at overskurken måtte være lederen af organisationen.

Man kan modellere organisationer som grafer, hvor man holder styr på, hvem der kommunikerer med hvem. Man kan se på organisationens opgaver, hierarkier og meget mere. Og man kan ikke bruge samme teori på alle typer organisationer.

Jeg ved ikke, hvordan han gjorde det, men lagde mærke til følgende replikskifte: Charlie sagde, at organisationsteori kan bruges til at sige, at der ikke kan have været en sammensværgelse bag mordet på Kennedy, fordi den nødvendigvis ville involvere rigtig mange mennesker, og så mange kan ikke holde mund. Men som en af de andre personer bemærkede “så er det nok derfor, vi allesammen har hørt om den sammensværgelse…”

Metadata

Rachel har et flash drive – en slags hukommelse a la USB med en masse data. Oswald gennemskuer, at der er noget lusk med de data, og Charlie og Millie kigger ned over dem og siger, at der er for mange 3 taller og 7 taller. Det er en slags metadata- data om data.

Her henvises muligvis til Benfords Lov se her på bloggen, som siger, at i mange typer data vil første betydende tal være 1 meget oftere end andre cifre, og ikke kun i 1/9 af tilfældene, som man skulle tro.
Så forfalskede tal kan ofte genkendes på, at fordelingen af cifre er forkert i forhold til, hvad ægte data ville udvise.

Det kan også være noget med psykologi, at 3 og 7 vælges tit, hvis man skal sige et tilfældigt tal. Det har jeg ikke kunnet finde noget link om, men 3 og 7 er hellige tal i flere religioner, så der er måske noget om, at folk derfor har dem liggende “på tungen”, når de bliver spurgt.

This entry was posted in Blog. Bookmark the permalink.