Statistikkens Første Søjle: Aggregering

4 år ago

★★★★★Rating: 3.95 (8832 votes)

I bogen "De Syv Søjler i Statistisk Visdom", udgivet af Harvard University Press, identificerer Stephen Stigler, Ernest DeWitt Burton Distinguished Service Professor i Statistik, syv fundamentale principper, der udgør grundlaget for statistik. Statistik er et i høj grad tværfagligt felt, der ikke kun "fodrer sig selv", men snarere adresserer kvantitative spørgsmål inden for en bred vifte af discipliner. Disse inkluderer så forskellige områder som filosofi, litteratur, medicin, fysik, økonomi og sociologi. Med sin bog sigter Stigler mod at differentiere statistik fra matematik og datalogi og fremhæve, hvad der gør statistik unikt som en datavidenskab.

Favorite Stats Books: Seven Pillars of Statistical Wisdom

Stigler beskriver søjlerne som "støtten, ikke substansen, i statistik". Han ser bogen som en taksonomi over det intellektuelle terræn inden for statistik. At skrive "De Syv Søjler i Statistisk Visdom" var en udfordring for Stigler, da han stræbte efter at kommunikere komplekse koncepter, der havde taget 100 år at udvikle, til et bredt publikum på en klar og forståelig måde. Disse principper er de fundamentale idéer, der understøtter hele det statistiske felt og gør det muligt at drage meningsfulde konklusioner fra data på tværs af forskellige anvendelsesområder.

Indholdsfortegnelse

Hvad er De Syv Søjler?
Den Første Søjle: Aggregering
Paradokset ved Aggregering
Andre Vigtige Søjler (Kort)
Støtte, Ikke Substans
Spørgsmål og Svar (FAQ)
Konklusion

Hvad er De Syv Søjler?

Stephen Stigler opstiller de syv søjler, der danner grundlaget for statistisk visdom. Disse principper er:

Aggregering
Informationsmåling
Likelihood
Sammenligning (Intercomparison)
Regression
Eksperimentelt Design
Residualet

Disse syv søjler repræsenterer de centrale idéer, der har formet og fortsat former den måde, vi tænker statistisk på og anvender statistiske metoder til at forstå verden omkring os. Lad os dykke dybere ned i den første og måske mest grundlæggende af disse søjler.

Den Første Søjle: Aggregering

Den første søjle, aggregering, er et fundamentalt princip inden for statistik, der indebærer at samle individuelle datapunkter for at opnå et overordnet billede eller en opsummering. Et klassisk eksempel på aggregering er simpelthen at tage et gennemsnit af en række værdier. Dette tilsyneladende enkle koncept rummer dog et dybtliggende paradoks, som Stigler fremhæver.

Paradokset ved Aggregering

Paradokset ved aggregering ligger i det faktum, at "ved at aggregere, mister du individets identitet, så du kasserer information", men samtidig opnår du "også information af en anden art". Dette er en central og måske kontraintuitiv idé. Når man samler data fra flere individer eller enheder og beregner en opsummerende statistik som et gennemsnit, en sum eller en frekvens, så forsvinder detaljerne om de enkelte bidragydere. Man kan ikke længere se de unikke karakteristika ved hvert enkelt datapunkt, når det er blevet en del af den samlede statistik.

Som Stigler udtrykker det: "Ingen ønsker at blive reduceret til en statistik". Dette fanger den følelse af tab af individualitet, der sker, når personlige data bidrager til en større pulje. Dog er det netop dette tab af individuel identitet, der muliggør en helt ny form for indsigt: "ved at miste individets identitet producerer man information om gruppen". Statistikken, der stammer fra aggregering, afslører mønstre, tendenser og karakteristika ved hele gruppen eller populationen, som ikke er synlige, når man kun betragter individuelle datapunkter isoleret.

Denne gruppeinformation er ofte det primære mål med statistisk analyse. Det er muligt at beskrive gennemsnitlige adfærdsmønstre, identificere typiske værdier, vurdere variationen inden for gruppen og sammenligne forskellige grupper baseret på disse aggregerede mål. Uden evnen til at aggregere data ville det være umuligt at drage generelle konklusioner eller foretage forudsigelser, der gælder ud over de specifikke individer, man har observeret. Aggregering er således broen fra individuelle observationer til kollektiv forståelse.

Andre Vigtige Søjler (Kort)

Mens aggregering er den første søjle, er de andre ligeledes essentielle for statistisk visdom. Selvom fokus er på aggregering, giver en kort berøring af de andre søjler yderligere kontekst for statistikkens fundamentale principper.

Informationsmåling

Den anden søjle, informationsmåling, adresserer idéen om at kvantificere den information, der er tilgængelig i data. Stigler påpeger en anden potentiel misforståelse her: "Folk antager ofte, at jo mere data man har, jo mere information har man, men data og information er ikke proportionelle." Det er ikke altid sådan, at en fordobling af datamængden fører til en fordobling af den nyttige information. Faktisk kan der være situationer, hvor man "nogle gange er bedre stillet ved at kassere data".

Stigler bruger et eksempel fra John Venn, den engelske logiker og filosof kendt for Venn-diagrammet, til at illustrere dette paradoks. Forestil dig en general, der belejrer et fort, hvis forsvarere er løbet tør for forsyninger. Generalen sender en spion for at finde ud af, hvilken størrelse kanonkugler der er brug for, når fortet er indtaget. Spionen rapporterer, at der er brug for 8-tommer kanonkugler. En anden spion vender tilbage og rapporterer, at der er brug for 9-tommer kanonkugler. I denne situation giver det ingen mening at tage gennemsnittet og medbringe 8,5-tommer kanonkugler, da disse sandsynligvis ikke vil passe i nogen af kanonerne. Generalen er bedre stillet ved at kaste noget af den modstridende information væk og vælge enten 8-tommer eller 9-tommer kanonkugler baseret på yderligere overvejelser (som ikke er specificeret i eksemplet, men kunne være vurdering af spionernes pålidelighed eller en foretrukken standardstørrelse). Dette eksempel viser, at rå datamængde ikke er det samme som klar og brugbar information.

Likelihood

Likelihood, den tredje søjle, handler om at bruge numerisk sandsynlighed til at vurdere værdien eller troværdigheden af data eller evidens. Stigler uddyber filosoffen David Humes påstand om, at et mirakel er en overtrædelse af naturloven. Ifølge Hume, hvis nogen rapporterer, at solen ikke stod op, eller at tidevandet udeblev, er der to mulige forklaringer: Enten skete der faktisk et mirakel, eller også lyver eller misforstår den person, der bevidnede det, situationen. Hume argumenterede for, at det er langt mere sandsynligt, at personen ikke taler sandt eller er uklar, end at naturlovene skulle være brudt. Humes argument baseret på sandsynlighed eller 'likelihood' inspirerede Thomas Bayes og Richard Price til at tilbyde et modargument, hvilket var den første fremkomst af Bayesiansk inferens. Dette illustrerer, hvordan princippet om likelihood bruges til at veje sandsynligheder og drage konklusioner baseret på evidens.

Regression

Stigler beskriver regression, den femte søjle, som grundlæggende et relativitetsprincip for statistik. Det indebærer, at afhængigt af de data, man udvælger, vil man få forskellige svar, der måske endda kan virke kompatible ved første øjekast, men som afspejler et underliggende statistisk fænomen.

Et eksempel på dette er fænomenet regression mod gennemsnittet. Forestil dig, at man udvælger en ekstremt høj person fra en menneskemængde. Man kunne intuitivt antage, at denne ekstremt høje person i gennemsnit har lige så høje forældre eller lige så høje børn. Dette er imidlertid forkert, forklarer Stigler.

Højde påvirkes af to hovedkomponenter: For det første faktorer som genetik, der påvirker alle familiemedlemmer i nogenlunde lige grad. For det andet variation forbundet med faktorer, der er uafhængige for forskellige familiemedlemmer, og som ikke har nogen gennemsnitlig effekt på andre i familien (f.eks. ernæring, sygdomme, tilfældige variationer i udviklingen). Forældre og børn deler den første komponent (genetik), men ikke den anden. En ekstremt høj individs højde skyldes sandsynligvis en kombination af "god" genetik og nogle af de uafhængige faktorer, der har bidraget positivt til netop dette individs højde. Det er usandsynligt, at den samme kombination af uafhængige positive faktorer vil gentage sig hos forældrene eller børnene. Derfor vil den ekstremt høje person i gennemsnit have kortere forældre og kortere børn. Det er faktisk mere sandsynligt, at en ekstremt høj person har forældre og børn, der "kun" er moderat høje. Dette fænomen, hvor ekstreme værdier i én observation tendenserer mod at være tættere på gennemsnittet i relaterede observationer, er kernen i regression og et vigtigt princip at forstå i statistisk analyse.

Støtte, Ikke Substans

Genbesøger vi Stiglers pointe om, at søjlerne er "støtten, ikke substansen", understreges det, at disse syv principper ikke er de statistiske metoder, formler eller datamængder i sig selv. De er snarere de fundamentale tænkningstilgange og koncepter, der gør det muligt at udvikle og anvende statistiske metoder meningsfuldt. De er den intellektuelle ramme, inden for hvilken statistisk videnskab opererer. Uden forståelse for disse søjler risikerer man at anvende statistiske værktøjer ukritisk eller misforstå resultaterne. De giver det teoretiske grundlag for, hvorfor visse metoder virker, hvorfor visse fortolkninger er gyldige, og hvorfor statistik er et unikt og kraftfuldt værktøj til at håndtere usikkerhed og variation i data.

Spørgsmål og Svar (FAQ)

Her er svar på nogle ofte stillede spørgsmål baseret på Stephen Stiglers koncept om "De Syv Søjler i Statistisk Visdom":

Hvad er Stephen Stiglers "De Syv Søjler"?
Det er syv fundamentale principper, som Stephen Stigler identificerer i sin bog som grundlaget for statistisk tænkning og praksis.
Hvad er den første søjle?
Den første søjle er aggregering, processen med at samle individuelle datapunkter for at danne et overordnet billede, såsom at beregne et gennemsnit.
Hvad er paradokset ved aggregering?
Paradokset er, at ved at aggregere data mister man individuel information, men opnår samtidig værdifuld information om den gruppe, dataene repræsenterer.
Hvordan ser Stigler på statistik i forhold til andre felter?
Stigler ser statistik som et unikt, tværfagligt felt, der besvarer kvantitative spørgsmål inden for mange discipliner og adskiller sig fra matematik og datalogi ved sine specifikke grundlæggende principper.
Hvorfor er det vigtigt at forstå disse søjler ifølge Stigler?
Søjlerne udgør støtten for statistik; de er de fundamentale principper, der gør statistisk analyse mulig og meningsfuld på tværs af forskellige anvendelsesområder.
Betyder mere data altid mere nyttig information?
Nej, ifølge den anden søjle (informationsmåling) er data og information ikke altid proportionelle, og nogle gange kan det være gavnligt at fokusere på relevant information frem for blot datamængde, som illustreret ved kanonkugle-eksemplet.
Hvad illustrerer eksemplet med den høje person?
Dette eksempel fra den femte søjle (regression) illustrerer fænomenet regression mod gennemsnittet, hvor ekstreme værdier i én generation eller observation tendenserer mod at være tættere på gennemsnittet i relaterede generationer eller observationer.

Konklusion

Stephen Stiglers identifikation af De Syv Søjler giver et værdifuldt rammeværk for at forstå de dybere principper, der ligger til grund for statistik. Den første søjle, aggregering, fremstår som fundamental, selv med sit indbyggede paradoks om at miste individuel information for at opnå gruppeinformation. Dette princip, sammen med de andre søjler som informationsmåling, likelihood og regression, udgør den intellektuelle støtte, der gør statistik til et uundværligt redskab til at navigere og forstå en verden fuld af data og usikkerhed. Ved at anerkende disse grundlæggende idéer kan vi opnå en dybere værdsættelse for statistikkens kraft og dens brede anvendelighed på tværs af videnskab, samfund og dagligdag.

Kunne du lide 'Statistikkens Første Søjle: Aggregering'? Så tag et kig på flere artikler i kategorien Læsning.