Gemiddelde versus mediaan versus modus
Gemiddelde, mediaan en modus zijn de belangrijkste maatstaven voor centrale tendens die worden gebruikt in beschrijvende statistieken. Ze verschillen totaal van elkaar en de gevallen waarin ze worden gebruikt om de gegevens samen te vatten, zijn ook verschillend.
Gemeen
Het rekenkundig gemiddelde is de som van de gegevenswaarden gedeeld door het aantal gegevenswaarden, dwz
Als de gegevens afkomstig zijn uit een steekproefruimte, wordt dit een steekproefgemiddelde (
) genoemd, wat een beschrijvende statistiek van de steekproef is. Hoewel het de meest gebruikte beschrijvende maat is voor een steekproef, is het geen robuuste statistiek. Het is erg gevoelig voor de uitschieters en oscillaties.
Kijk bijvoorbeeld eens naar het gemiddelde inkomen van de inwoners van een bepaalde stad. Omdat alle gegevenswaarden worden opgeteld en vervolgens worden gedeeld, heeft het inkomen van een extreem rijke persoon een aanzienlijke invloed op het gemiddelde. Daarom zijn de gemiddelde waarden niet altijd een goede weergave van de gegevens.
Ook, in het geval van een wisselsignaal, varieert de stroom die door een element gaat periodiek van de positieve richting naar de negatieve richting en vice versa. Als we de gemiddelde stroom nemen die door het element in een enkele periode gaat, geeft dit een 0, wat betekent dat er geen stroom door het element is gegaan, wat uiteraard niet waar is. Daarom is het rekenkundig gemiddelde ook in dit geval geen goede maatstaf.
Het rekenkundig gemiddelde is een goede indicator wanneer de gegevens gelijkmatig worden verdeeld. Voor een normale verdeling is het gemiddelde gelijk aan de modus en mediaan. Het heeft ook de laagste residuen bij het beschouwen van de gemiddelde kwadratische fout; daarom de beste beschrijvende maat als het vereist is om een dataset met een enkel getal weer te geven.
Mediaan
De waarden van het middelste gegevenspunt nadat alle gegevenswaarden in oplopende volgorde zijn gerangschikt, worden gedefinieerd als de mediaan van de gegevensset. Mediaan is het 2e kwartiel, 5e deciel en 50e percentiel.
• Als het aantal waarnemingen (datapunten) oneven is, dan is de mediaan de waarneming precies in het midden van de geordende lijst.
• Als het aantal waarnemingen (datapunten) even is, dan is de mediaan het gemiddelde van de twee middelste waarnemingen in de geordende lijst.
Mediaan verdeelt de waarneming in twee groepen; dwz een groep (50%) waarden hoger en een groep (50%) waarden lager dan de mediaan. Mediaan worden specifiek gebruikt in scheve distributies en geven gegevens redelijk beter weer dan het rekenkundig gemiddelde.
Modus
Modus is het meest voorkomende getal in een reeks waarnemingen. De modus van een dataset wordt berekend door de frequentie van elk element in de set te vinden.
• Als er geen waarde meer dan één keer voorkomt, heeft de dataset geen modus.
• Anders is elke waarde die met de hoogste frequentie voorkomt een modus van de dataset.
Er kan meer dan 1 modus in een set voorkomen; daarom is modus geen unieke statistiek van een gegevensset. Bij een uniforme distributie is er één modus. De modus van een discrete kansverdeling is het punt waarop de kansmassafunctie het hoogste punt bereikt. Op basis van bovenstaande interpretaties kunnen we zeggen dat globale maxima modi zijn.
Overweeg de toepassing van alle drie de maatregelen op de volgende dataset.
GEGEVENS: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Gemiddelde = (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25 = 8.12
Mediaan = 9 (13e element)
Mode = 9 (frequentie van 9 = 5)
Wat is het verschil tussen gemiddelde, mediaan en modus?
• Rekenkundig gemiddelde is de som van de waarden (waarnemingen) gedeeld door het aantal waarnemingen. Het is geen robuuste statistiek en sterk afhankelijk van de normale distributiekarakteristiek binnen de beschouwde distributie. Een enkele uitbijter kan een significante verschuiving veroorzaken in het gemiddelde, waardoor relatief misleidende waarden worden opgegeven. Het concept kan worden uitgebreid tot geometrisch gemiddelde, harmonisch gemiddelde, gewogen gemiddelde enzovoort.
• Mediaan is de middelste waarde van de set waarnemingen en wordt relatief minder beïnvloed door uitschieters. Het kan een goede schatting zijn als de samenvattende statistiek in sterk vertekende gevallen.
• Modus zijn de meest voorkomende waarnemingswaarden in de dataset. Als de verdeling positief scheef is, ligt de modus links van de mediaan en, indien negatief scheef, ligt de modus rechts van de mediaan.
• Indien positief scheef, is gemiddelde gelijk aan de mediaan; als negatief scheef is het gemiddelde links van de mediaan.
• In de normale verdeling zijn alle drie, gemiddelde, modus en mediaan gelijk.