Populatie versus standaarddeviatie van steekproef
In statistieken worden verschillende indices gebruikt om een dataset te beschrijven die overeenkomt met zijn centrale neiging, spreiding en scheefheid. Standaarddeviatie is een van de meest gebruikelijke maatstaven voor de verspreiding van gegevens vanuit het midden van de gegevensverzameling.
Vanwege praktische problemen zal het niet mogelijk zijn om bij het testen van een hypothese gebruik te maken van gegevens van de hele populatie. Daarom gebruiken we gegevenswaarden uit steekproeven om conclusies te trekken over de populatie. In een dergelijke situatie worden deze schatters genoemd omdat ze de populatieparameterwaarden schatten.
Het is uiterst belangrijk om onbevooroordeelde schatters te gebruiken bij het afleiden. Een schatter is zuiver als de verwachte waarde van die schatter gelijk is aan de populatieparameter. We gebruiken bijvoorbeeld het steekproefgemiddelde als een zuivere schatter voor het populatiegemiddelde. (Wiskundig kan worden aangetoond dat de verwachte waarde van het steekproefgemiddelde gelijk is aan het populatiegemiddelde). In het geval van het schatten van de standaarddeviatie van de populatie, is de standaarddeviatie van de steekproef ook een zuivere schatter.
Wat is de standaarddeviatie van de populatie?
Wanneer gegevens van de hele populatie in aanmerking kunnen worden genomen (bijvoorbeeld in het geval van een volkstelling), is het mogelijk om de standaarddeviatie van de populatie te berekenen. Om de standaarddeviatie van de populatie te berekenen, worden eerst de deviaties van gegevenswaarden van het populatiegemiddelde berekend. Het gemiddelde kwadraat (kwadratisch gemiddelde) van deviaties wordt de standaarddeviatie van de populatie genoemd.
In een klas van 10 leerlingen kunnen gemakkelijk gegevens over de leerlingen worden verzameld. Als een hypothese wordt getest op deze populatie studenten, is het niet nodig om steekproefwaarden te gebruiken. Zo worden de gewichten van de 10 leerlingen (in kilogram) gemeten op 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan is het gemiddelde gewicht van de tien personen (in kilogram) (70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79) / 10, dat is 71 (in kilogram). Dit is het populatiegemiddelde.
Om de standaarddeviatie van de populatie te berekenen, berekenen we afwijkingen van het gemiddelde. De respectievelijke afwijkingen van het gemiddelde zijn (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 en (79 - 71) = 8. De som van de afwijkende kwadraten is (-1) 2 + (-9) 2 + (-6) 2 + 1 2 + 9 2 + (-1) 2 + (-8) 2 + 1 2 + 6 2 + 8 2 = 366. De standaarddeviatie van de populatie is √ (366/10) = 6,05 (in kilogram). 71 is het exacte gemiddelde gewicht van de leerlingen van de klas en 6,05 is de exacte standaarddeviatie van het gewicht van 71.
Wat is de standaarddeviatie van de steekproef?
Wanneer gegevens van een steekproef (van grootte n) worden gebruikt om de parameters van de populatie te schatten, wordt de standaarddeviatie van de steekproef berekend. Eerst worden de afwijkingen van datawaarden van het steekproefgemiddelde berekend. Aangezien het steekproefgemiddelde wordt gebruikt in plaats van het populatiegemiddelde (dat onbekend is), is het niet geschikt om het kwadratisch gemiddelde te nemen. Om het gebruik van steekproefgemiddelde te compenseren, wordt de som van de kwadraten van afwijkingen gedeeld door (n-1) in plaats van n. De standaarddeviatie van het monster is hiervan de vierkantswortel. In wiskundige symbolen is S = √ {∑ (x i -ẍ) 2 / (n-1)}, waarbij S de standaarddeviatie van de steekproef is, ẍ het gemiddelde van de steekproef en x i ’s de datapunten.
Stel nu dat in het vorige voorbeeld de populatie de leerlingen van de hele school zijn. Dan is de klas slechts een voorbeeld. Als deze steekproef wordt gebruikt bij de schatting, is de standaarddeviatie van de steekproef √ (366/9) = 6,38 (in kilogram) aangezien 366 werd gedeeld door 9 in plaats van 10 (de steekproefomvang). Het feit dat moet worden opgemerkt, is dat dit niet gegarandeerd de exacte standaarddeviatie van de populatie is. Het is er slechts een schatting voor.
Wat is het verschil tussen de standaarddeviatie van de populatie en de standaarddeviatie van de steekproef? • De standaarddeviatie van de populatie is de exacte parameterwaarde die wordt gebruikt om de spreiding vanuit het midden te meten, terwijl de standaarddeviatie van de steekproef hiervoor een zuivere schatter is. • De standaarddeviatie van de populatie wordt berekend wanneer alle gegevens over elk individu van de populatie bekend zijn. Anders wordt de standaarddeviatie van het monster berekend. • De standaarddeviatie van de populatie wordt gegeven door σ = √ {∑ (xi-µ) 2 / n} waarbij µ het populatiegemiddelde is en n de populatiegrootte, maar de standaarddeviatie van de steekproef wordt gegeven door S = √ {∑ (xi-ẍ) 2 / (n-1)} waarbij ẍ het steekproefgemiddelde is en n de steekproefomvang. |