Inhoud:
Controle op normale verdeling
Extreme waarden en scheefheid
Verwachte celfrequenties
Als de variabele normaal verdeeld is, kun je op grond van de z-score zeggen hoeveel procent van de waarnemingen hoger of lager is. Hiervoor heb je een significantietabel nodig (zie de hint: Werken met de standaardnormale verdeling) of een computer die met de formule voor een standaardnormale verdeling kan werken.
Een normale verdeling is symmetrisch (dus niet scheef). Dit kun je controleren via de skewness maat (zie hieronder).
Je kunt op het oog controleren of een verdeling normaal is door een histogram te maken en daarin de normaalverdeling in te laten tekenen.
We gaan bij het toetsen vooral kijken naar de staarten van de verdeling. Daarom is het van belang dat de staarten links en rechts redelijk dicht bij de ingetekende normaalverdeling liggen. Let ook op extreme waarden (zie hieronder) die duidelijk buiten de staarten liggen.
Er zijn geavanceerdere methoden om vast te stellen of een variabele normaal verdeeld is. We behandelen die echter niet.
Extreme waarden zijn waarden die minstens 5 standaarddeviaties verwijderd liggen van het gemiddelde. Uitbijters (outliers) zijn waarden die minstens 3 standaarddeviaties verwijderd liggen van het gemiddelde.
Scheefheid wordt gemeten met de maat skewness. Bij dataverzamelingen met kleine aantallen waarnemingen (< 100) kun je een significantietoets doen op de scheefheid. De nulhypothese is dan dat de verdeling symmetrisch (dus niet scheef) is. Bij grote data sets vind je echter significante resultaten op deze toets wanneer de verdeling maar een klein beetje scheef is. Dan is het beter de waarde van de scheefheidsmaat te interpreteren. Een waarde dichtbij of boven de 1 of dichtbij of onder -1 geeft een scheefheid waarbij we beter geen analyses meer kunnen doen die een symmetrische of normale verdeling veronderstellen.
De belangrijkste output:
De tabel met beschrijvende statistieken. Onderaan staat de maat voor scheefheid (skewness) met de standaardfout. Wanneer de skewness-score minstens twee keer zo groot is als de standaardfout die erachter vermeld wordt, mogen we er niet van uitgaan dat de verdeling (in de populatie) symmetrisch is.
Statistic | Std. Error | |||
---|---|---|---|---|
Hoe lang kijkt u op zaterdag en zondag gemiddeld per dag televisie? Uren | Mean | 2,7786 | ,04837 | |
95% Confidence Interval for Mean | Lower Bound | 2,6837 | ||
Upper Bound | 2,8735 | |||
5% Trimmed Mean | 2,6469 | |||
Median | 2,0000 | |||
Variance | 3,640 | |||
Std. Deviation | 1,90784 | |||
Minimum | ,00 | |||
Maximum | 20,00 | |||
Range | 20,00 | |||
Interquartile Range | 3,00 | |||
Skewness | 1,796 | ,062 | ||
Kurtosis | 7,908 | ,124 |
De tabel met de uitbijters (outliers) die gevonden zijn. Standaard worden de 5 hoogste en laagste waarden getoond. Dit hoeven echter geen extreme waarden te zijn. Bekijk daarvoor het boxplot.
Case Number | Value | |||
---|---|---|---|---|
Hoe lang kijkt u op zaterdag en zondag gemiddeld per dag televisie? Uren | Highest | 1 | 361 | 20,00 |
2 | 563 | 15,00 | ||
3 | 678 | 15,00 | ||
4 | 1521 | 14,00 | ||
5 | 469 | 12,00(a) | ||
Lowest | 1 | 1553 | ,00 | |
2 | 1538 | ,00 | ||
3 | 1532 | ,00 | ||
4 | 1506 | ,00 | ||
5 | 1504 | ,00(b) | ||
a Only a partial list of cases with the value 12,00 are shown in the table of upper extremes. | ||||
b Only a partial list of cases with the value ,00 are shown in the table of lower extremes. |
Het boxplot waarin de extreme waarden aangegeven zijn met een * en de uitbijters (outliers) met een o. In dit voorbeeld zien we dat de waarden vanaf 14 extreme waarden zijn en vanaf 9 zijn het uitbijters..
Vermeld het volgende:
Wanneer het gemiddelde (M) en de standaarddeviatie (SD) berekend zijn, kunnen uitbijters (outliers) en extreme waarden makkelijk berekend worden:
Bij de chikwadraattoets op één variabele moeten de verwachte frequenties minstens 1 zijn en minimaal 80% van de verwachte frequenties moet minstens 5 zijn.
Aangezien je de verwachte frequenties zelf invult - het zijn namelijk de bekende populatiewaarden omgerekend naar de steekproef - kun je tijdens het invullen controleren of de waarden hoog genoeg zijn.