Basisbegrippen uit de statistiek

Basisbegrippen uit de statistiek Om de weg te kunnen vinden in de wonderlijke wereld der statistiek is het belangrijk om een paar basis begrippen helder te hebben. Met deze achtergrond is het mogelijk een beter begrip te krijgen van statistische processen en termen als variantie, gemiddelden en de normale verdeling. Inhoud van dit artikel:
  • Gemiddelde als model
  • Met de variantie de standaard deviatie berekenen
  • De normale verdeling

Modellen bouwen aan de hand van het gemiddelde

Statistiek gaat over het bouwen van modellen. We bouwen een statistisch model waarmee we een voorspelling kunnen doen over een bepaald vraagstuk. Het simpelste model dat we kunnen gebruiken is het gemiddelde. Wil je bijvoorbeeld het IQ van een willekeurig persoon schatten, dan is het verstandig om te gokken op de gemiddelde score, dus een IQ van 100. Gok je altijd op het gemiddelde, dan kom je altijd gemiddeld uit.

Maar hoe goed is dan het door ons gemaakte model? Bij een goed model is de variantie laag (ofwel: alle gemeten waarden liggen dicht bij de waarden voorspeld door het model). Het is dan ook gelijk duidelijk dat ons model in de afbeelding beter zou zijn als het schuin omhoog zo lopen, in plaats van dat het het gemiddelde weergeeft. Om de variantie te bepalen bereken je eerst de Sums of Squares (SS) van je model, deze bereken je door alle afwijkingen van het gemiddelde te kwadrateren en bij elkaar op te tellen (dus alle donker rode lijnen in de afbeelding). Je moet kwadrateren om alle afwijkingen positief te krijgen, anders zouden de negatieve errors tegen de positieve wegvallen. De maat die we nu hebben is echter nog niet objectief, namelijk hoe meer metingen, hoe groter hij automatisch wordt. Het is dus nog geen objectieve beoordelaar voor ons model. Om die wel te krijgen delen we door het aantal waarnemingen min één (N-1) en zo komen we tot de formule van de variantie:

formule voor variantieformule voor variantie

In statistische tests wordt de variantie veel gebruikt om de fit van een model te bepalen. Een ANOVA (ANalysis Of VAriance) is niet voor niets één van de statistisch meest krachtige tests. Toch is het in de beschrijvende statistiek niet altijd handig om over variantie te praten. Immers, het wordt erg vaag om met gekwadrateerde eenheden te gaan werken (we nemen immers de som van de kwadraten). Om het weer in de normale eenheid te krijgen kunnen we de wortel trekken: hiermee bereken je de standaard deviatie (SD of s).

formule van de standaard deviatieformule van de standaard deviatie

Normaliteit

Statistische tests die gebruik maken van de gemiddelde waarde noemen we parametrische tests. Deze toetsen maken gebruik van de vooronderstelling dat de meetwaarden normaal verdeeld zijn. Dit betekent dat de meetwaarden symmetrisch verdeeld zijn om het gemiddelde heen. Dit betekent ook dat het gemiddelde (som van de meetwaarden / aantal meetwaarden), de mediaan (de middelste meetwaarde) en de modus (meetwaarde die het meest voorkomt) op dezelfde plek liggen.

Voordat je parametrisch wil gaan toetsen moet je altijd kijken of je data echt normaal verdeeld zijn. Dan kan je op het oog kijken (gemiddelde=mediaan=modus) maar is het ook handig om er een getal aan vast te plakken. Er zijn meerdere manieren om de normaliteit te testen die onderling niet veel uitmaken. Vaak volstaat het om te kijken naar de skewness (symmetrie van de verdeling, het tweede plaatje in de afbeelding is bijvoorbeeld skewed) en de kurtosis (puntigheid van de verdeling). Elk statistisch programma kan deze waarden voor je berekenen en ze zouden kleiner moeten zijn dan 1, voor een normale verdeling. Iets specifieker is het om de skewness of kurtosis te delen door zijn eigen standaard error en deze waarden moeten kleiner zijn 1.96.
Bijkomstigheid van normaal verdeelde data is dat je ook weet dat 68% van de data binnen 1 SD afstand van het gemiddelde ligt. Verder ligt 95% van de data binnen 2 SD’s van het gemiddelde. Er wordt dan ook vaak afgesproken om een alpha van 5% te hanteren, omdat het aannemelijk is dat als het gemiddelde van jouw steekproef meer dan 2 SD’s afwijkt van het populatie gemiddelde, dat je steekproef dan niet een willekeurige weerspiegeling is van die populatie en dus waarschijnlijk niet bij die populatie hoort.
© 2013 - 2024 Steven2389, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.
Gerelateerde artikelen
Centrummaten en spreidingsmatenCentrummaten en spreidingsmatenEen centrummaat is een term uit de statistiek. Er zijn verschillende centrummaten, de modus, de mediaan en het gemiddeld…
Statistiek de normale verdelingStatistiek de normale verdelingDe functie die voor continue kansvariabelen de kans als functie f van een zekere uitkomst x weergeeft, noemt men de kans…
De ANOVA of variantie-analyseDe ANOVA of variantie-analyseBinnen de statistiek worden regelmatig groepen met elkaar vergeleken. Wanneer er slechts twee groepen met elkaar worden…
Statistiek - Centrummaten en de normale verdelingStatistiek - Centrummaten en de normale verdelingIn de statistiek worden centrummaten gebruikt om de centrale tendentie aan te geven. Er zijn verschillende maten om iets…

Correlationele testsCorrelationele testsMet een correlationele test bereken je de samenhang van twee variabelen. Zo kan je bijvoorbeeld onderzoeken of er een ve…
Bronnen en referenties
  • Discovering Statistics using SPSS, Second Edition, Andy Field 2005
Steven2389 (36 artikelen)
Laatste update: 11-02-2013
Rubriek: Wetenschap
Subrubriek: Diversen
Bronnen en referenties: 1
Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.