Afwijking versus standaarddeviatie
Afwijking versus standaarddeviatie
In beschrijvende en inferentiële statistieken worden verschillende indices gebruikt om een dataset te beschrijven die overeenkomt met zijn centrale neiging, spreiding en scheefheid. In statistische gevolgtrekking zijn deze algemeen bekend als schatters, omdat ze de populatieparameterwaarden schatten.
Verspreiding is de maat voor de spreiding van gegevens rond het midden van de gegevensset. Standaarddeviatie is een van de meest gebruikte maatstaven voor spreiding. Bij het berekenen van de standaarddeviatie wordt rekening gehouden met de afwijkingen van elk datapunt van het gemiddelde. Daarom kan men stellen dat de standaarddeviatie samen met het gemiddelde een bijna voldoende beeld geeft van een dataset.
Beschouw de volgende dataset. De gewichten van 10 personen (in kilogram) worden gemeten op 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan is het gemiddelde gewicht van de tien personen (in kilogram) 71 (in kilogram).
Wat is een afwijking?
In statistieken betekent deviatie de hoeveelheid waarmee een enkel gegevenspunt verschilt van een vaste waarde, zoals het gemiddelde. In het algemeen, laat k een vaste waarde zijn en x 1, x 2,…, x n duiden een dataset aan. Vervolgens wordt de afwijking van x j van k gedefinieerd als (x j - k).
In de bovenstaande dataset zijn de respectieve afwijkingen van het gemiddelde bijvoorbeeld (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 en (79 - 71) = 8.
Wat is standaarddeviatie?
Als er rekening gehouden kan worden met gegevens van de hele populatie (bijvoorbeeld in het geval van een volkstelling), is het mogelijk om de standaarddeviatie van de populatie te berekenen. Om de standaarddeviatie van de populatie te berekenen, worden eerst de deviaties van gegevenswaarden van het populatiegemiddelde berekend. Het gemiddelde kwadraat (kwadratisch gemiddelde) van deviaties wordt de standaarddeviatie van de populatie genoemd. In symbolen, σ = √ {∑ (x i -µ) 2 / n} waarbij µ het populatiegemiddelde is en n de populatiegrootte.
Wanneer gegevens van een steekproef (van grootte n) worden gebruikt om de parameters van de populatie te schatten, wordt de standaarddeviatie van de steekproef berekend. Eerst worden de afwijkingen van datawaarden van het steekproefgemiddelde berekend. Aangezien het steekproefgemiddelde wordt gebruikt in plaats van het populatiegemiddelde (dat onbekend is), is het niet geschikt om het kwadratisch gemiddelde te nemen. Om het gebruik van het steekproefgemiddelde te compenseren, wordt de som van de kwadraten van afwijkingen gedeeld door (n-1) in plaats van n. De standaarddeviatie van het monster is hiervan de vierkantswortel. In wiskundige symbolen is S = √ {∑ (x i -ẍ) 2 / (n-1)}, waarbij S de standaarddeviatie van de steekproef is, ẍ het gemiddelde van de steekproef en xi's de datapunten.
In de vorige dataset is de som van de afwijkende kwadraten (-1) 2 + (-9) 2 + (-6) 2 + 1 2 + 9 2 + (-1) 2 + (-8) 2 + 1 2 + 6 2 + 8 2 = 366. De standaarddeviatie van de populatie is dus √ (366/10) = 6,05 (in kilogram). (Ervan uitgaande dat de beschouwde populatie bestaat uit de 10 mensen van wie de gegevens zijn overgenomen).
Wat is het verschil tussen deviatie en standaarddeviatie? • Standaarddeviatie is een statistische index en een schatter, maar deviatie is dat niet. • Standaarddeviatie is een maat voor de spreiding van een cluster van gegevens vanuit het centrum, terwijl deviatie verwijst naar de mate waarin een enkel datapunt verschilt van een vaste waarde. |