Univariaat beoordelen

Inhoud:
Controle op normale verdeling
Extreme waarden en scheefheid
Verwachte celfrequenties

Controle op normale verdeling

Als de variabele normaal verdeeld is, kun je op grond van de z-score zeggen hoeveel procent van de waarnemingen hoger of lager is. Hiervoor heb je een significantietabel nodig (zie de hint: Werken met de standaardnormale verdeling) of een computer die met de formule voor een standaardnormale verdeling kan werken.

Een normale verdeling is symmetrisch (dus niet scheef). Dit kun je controleren via de skewness maat (zie hieronder).
Je kunt op het oog controleren of een verdeling normaal is door een histogram te maken en daarin de normaalverdeling in te laten tekenen.

SPSS commando

Rapportage

We gaan bij het toetsen vooral kijken naar de staarten van de verdeling. Daarom is het van belang dat de staarten links en rechts redelijk dicht bij de ingetekende normaalverdeling liggen. Let ook op extreme waarden (zie hieronder) die duidelijk buiten de staarten liggen.

Er zijn geavanceerdere methoden om vast te stellen of een variabele normaal verdeeld is. We behandelen die echter niet.

Extreme waarden en scheefheid

Extreme waarden zijn waarden die minstens 5 standaarddeviaties verwijderd liggen van het gemiddelde. Uitbijters (outliers) zijn waarden die minstens 3 standaarddeviaties verwijderd liggen van het gemiddelde.
Scheefheid wordt gemeten met de maat skewness. Bij dataverzamelingen met kleine aantallen waarnemingen (< 100) kun je een significantietoets doen op de scheefheid. De nulhypothese is dan dat de verdeling symmetrisch (dus niet scheef) is. Bij grote data sets vind je echter significante resultaten op deze toets wanneer de verdeling maar een klein beetje scheef is. Dan is het beter de waarde van de scheefheidsmaat te interpreteren. Een waarde dichtbij of boven de 1 of dichtbij of onder -1 geeft een scheefheid waarbij we beter geen analyses meer kunnen doen die een symmetrische of normale verdeling veronderstellen.

SPSS commando

SPSS Output

De belangrijkste output:

De tabel met beschrijvende statistieken. Onderaan staat de maat voor scheefheid (skewness) met de standaardfout. Wanneer de skewness-score minstens twee keer zo groot is als de standaardfout die erachter vermeld wordt, mogen we er niet van uitgaan dat de verdeling (in de populatie) symmetrisch is.
Descriptives



Statistic Std. Error
Hoe lang kijkt u op zaterdag en zondag gemiddeld per dag televisie? Uren Mean 2,7786 ,04837
95% Confidence Interval for Mean Lower Bound 2,6837
Upper Bound 2,8735
5% Trimmed Mean 2,6469
Median 2,0000
Variance 3,640
Std. Deviation 1,90784
Minimum ,00
Maximum 20,00
Range 20,00
Interquartile Range 3,00
Skewness 1,796 ,062
Kurtosis 7,908 ,124

De tabel met de uitbijters (outliers) die gevonden zijn. Standaard worden de 5 hoogste en laagste waarden getoond. Dit hoeven echter geen extreme waarden te zijn. Bekijk daarvoor het boxplot.
Extreme Values



Case Number Value
Hoe lang kijkt u op zaterdag en zondag gemiddeld per dag televisie? Uren Highest 1 361 20,00
2 563 15,00
3 678 15,00
4 1521 14,00
5 469 12,00(a)
Lowest 1 1553 ,00
2 1538 ,00
3 1532 ,00
4 1506 ,00
5 1504 ,00(b)
a Only a partial list of cases with the value 12,00 are shown in the table of upper extremes.
b Only a partial list of cases with the value ,00 are shown in the table of lower extremes.

Het boxplot waarin de extreme waarden aangegeven zijn met een * en de uitbijters (outliers) met een o. In dit voorbeeld zien we dat de waarden vanaf 14 extreme waarden zijn en vanaf 9 zijn het uitbijters..

Rapportage

Vermeld het volgende:

Rekenen

Wanneer het gemiddelde (M) en de standaarddeviatie (SD) berekend zijn, kunnen uitbijters (outliers) en extreme waarden makkelijk berekend worden:

Verwachte celfrequenties

Bij de chikwadraattoets op één variabele moeten de verwachte frequenties minstens 1 zijn en minimaal 80% van de verwachte frequenties moet minstens 5 zijn.
Aangezien je de verwachte frequenties zelf invult - het zijn namelijk de bekende populatiewaarden omgerekend naar de steekproef - kun je tijdens het invullen controleren of de waarden hoog genoeg zijn.