The Running man/Løberen 2-15

Der var ikke så meget brug af matematik i opklaringen af forbrydelser idag, men Charlie nævnte heldigvis Benfords lov. Han lavede et lidt kringlet argument udfra den, som var nyttigt i opklaringen, og det er faktisk en ret overraskende lovmæssighed, så den vil jeg fortælle om. Desuden foregik en del af udsendelsen i LIGO lab, så det får I også lidt om.

Charlie var lidt trist over, at han ikke er så feteret, som da han var ung, hvor han var det store håb i matematikken. Men sådan er det jo at blive voksen. Til gengæld må vi da sige, at han er ret god til at opklare forbrydelser med matematik…

Benfords lov

Ser man på det første ciffer i tabeller over for eksempel længden af verdens floder, indbyggertal i verdens lande, atomvægt, tal, der har stået på forsiden af en avis… og meget andet, vil det første ciffer med sandsynlighed ca. 0,30 være tallet 1. Umiddelbart skulle man jo tro, at alle tal mellem 1 og 9 optrådte med lige stor sandsynlighed, (altså 0,111) men det er fordi, man lader sig snyde af, hvad tilfældighed betyder i denne sammenhæng.

Denne regelmæssighed blev først observeret af Simon Newcomb i 1881. Han bemærkede, at de første sider i logaritmetabellerne (som man brugte før lommeregneren kom) var meget mere slidt end de sidste. Det er der, man har tal med første betydende ciffer 1. Men en rigtig forklaring fulgte først i 1995, i en stribe artikler af T.P.Hill. Jeg har fundet dem i JStor, hvor gamle artikler fra mange områder, herunder matematik, er scannet ind og kan hentes i pdf- gratis! Vil man virkelig vide, hvad Benfords lov siger, kan man kigge i Hills artikler
Base invariance implies Benfords Law
og i A Statistical Derivation of the significant-digit law Men det er hård kost.
Fænomenet er opkaldt efter en fysiker Frank Benford, som bemærkede det i 1938 og lavede lange lister over data fra baseballstatistik til husnumre.

Andelen af tal med første ciffer n, hvor n=1,2,3,4,5,6,7,8,9 er [tex]log(frac{(n+1)}{n})[/tex], hvor log er titalslogaritmen.

Et argument for, hvorfor fordelingen må være sådan, skyldes Roger Pinkham og er fra 1961. Hans argument er : HVIS der er en lovmæssighed for første ciffer i samlinger af data, så må det være uafhængigt af, om vi måler afstande i meter eller mil, vægt i kilo eller pund etc. Man skal altså få den samme fordeling, hvis man ganger alle sine data med det samme tal.

Først kan vi konstatere, at en jævn (uniform) fordeling af cifrene ikke opfylder det kriterium: Lad os sige, vi har en samling data, hvor alle 9 cifre optræder lige hyppigt som første betydende ciffer. Nu ganger vi alle vores data med 2. De data, der havde 1 som første ciffer, får nu enten 2 eller 3. De data, der havde første ciffer 5, 6, 7, 8 eller 9, vil nu have første ciffer 1, (tænk over det – man kan højst få en i mente); der er faktisk 10 gange så mange tal, der har første ciffer 1, som noget andet tal. Så det går ikke.

Argumentet for, at det bliver fordelingen ovenfor, er, for dem, der kender logaritmer: Skriv data som [tex]xtimes 10^n[/tex] hvor [tex]1leq x < 10[/tex]. Eksempelvis har 0.345 og 3450 begge x=3.45. Så er første betydende ciffer det første ciffer i x. Hvis fordelingen af x’erne er invariant under at gange med et tal (forbliver den samme, hvis vi ganger med et tal), er fordelingen af log(x) invariant når vi lægger et tal til. Hvorfor? Jo, log(ax)=log(a)+log(x). Kald de data, vi får som log(x) for y.Vi ved nu, at [tex]0leq y < 1[/tex] (fordi vi havde begrænsninger på x som ovenfor.
Den fordeling af y, der er invariant, når man lægger et tal til, er den uniforme fordeling.
Sandsynligheden for, at første ciffer i x er 1, er sandsynligheden for, at [tex]1leq x < 2 [/tex], og det er sandsynligheden for, at [tex]0leq y < log{2}[/tex] og den er log 2, da y er uniformt fordelt mellem 0 og 1. På samme maner ser man sandsynligheden for de andre cifre: x mellem n og n+1 svarer til y mellem log(n) og log (n+1).
Nå, det blev måske lidt langhåret.

Benfords lov og forfalskede data

Man bruger Benfords lov til at opdage forfalskede data. De færreste vil vælge deres falske data, så de følger Benfords lov, og der vil typisk være for mange med 4, 5 og 6 som første ciffer. Det bruges bl.a. af revisorer og skattevæsen. I hvert fald i USA, men også i Danmark. Se revisorinformatik programmet her.
Nu er det ikke alle data, der følger Benfords lov. For eksempel højde af voksne – der vil være rigtig mange med første ciffer 1, hvis man måler i meter. Så det er ikke tilfældigt nok – det er nok normalfordelt. Omvendt ved vi, at uniform fordeling heller ikke adlyder Benford. Det, Hill viste, var, at hvis man blander data, som har forskellig fordeling, som f.eks. dem på forsiden af avisen, vil sammenblandingen følge Benfords lov. Den præcise formulering kan I se i artiklerne ovenfor.

Man kan læse mere i Plus Magazine, på Wikipedia og mange andre steder på nettet.

Et eksempel på data, der følger Benfords lov, er dem, der er i databasen under Inverse Symbolic Calculator hvor man kan indtaste mærkelige tal, man er faldet over, og så få at vide, at det minsandten er logaritmen til pi eller noget i den retning. Jeg kunne kun få det til at virke, hvis jeg indsatte et punktum et sted i det tal, jeg tastede ind, men det kan I jo prøve jer frem med.

LIGO

Eller Laser Interferometer Gravitational-Wave Observatory er et virkeligt projekt ved CalTech som jo er det universitet, man har brugt som model for CalSci i Numb3rs. Det drives af CalTech og MIT og der er, så vidt jeg kan se, observatorier i Washington (staten) og i Louisiana. Man kan se på projektets hjemmeside hvor man også finder en beskrivelse af, hvad de leder efter – bølger i rum-tid, gravitationsbølger. Spændende. Man kan finde danske kilder om det via Google – jeg søgte på gravitationsbølger. For eksempel Ekkoer fra Big Bang, (oversat fra Scientific American) hvor LIGO også omtales. De har ikke fundet nogen gravitationsbølger endnu.

This entry was posted in Blog. Bookmark the permalink.

One Response to The Running man/Løberen 2-15

  1. Pingback: 3-18 Democracy. på numb3rs

Comments are closed.