Sum Of Squares Berekenen

Sum Of Squares Berekenen
Stappenplan om de variantie te berekenen

  1. Stap 1: Berekenen het gemiddelde.
  2. Stap 2: Bepaal de afstand tot het gemiddelde voor iedere waarde.
  3. Stap 3: Kwadrateer de afwijkingen tot het gemiddelde.
  4. Stap 4: Bereken de som van de kwadraten ( sum of squares )
  5. Stap 5: Deel de som van de kwadraten door n – 1 of N.

Wat zegt de sum of squares?

Som van de kwadraten van de verschillen van de waarnemingen met hun gemiddelde, of een andere steekproefgrootheid.

Hoe bereken je s?

Handmatig de standaarddeviatie berekenen – Om de standaarddeviatie handmatig te berekenen, doorloop je de volgende stappen:

  1. Bereken het gemiddelde
  2. Bereken de afwijking van iedere waarde tot het gemiddelde en kwadrateer deze
  3. Deel deze gekwadrateerde afwijkingen door het aantal observaties minus één
  4. Neem de wortel van de variantie om de standaarddeviatie te krijgen

Stel dat je vijf studenten hebt gevraagd naar hun leeftijd. Wat is dan de standaarddeviatie (ofwel spreiding) in deze waardes?

Respondent Leeftijd
1 18
2 29
3 25
4 23
5 20

Wat is de Kwadratensom?

Som van de kwadraten van de verschillen van de waarnemingen met hun gemiddelde, of een andere steekproefgrootheid.

Hoe bereken je de verklaarde variantie?

Methoden van Communicatieonderzoek en Statistiek (MCOS) l. Wat is de betekenis van deze verklaarde variantie? De variantie in minuten televisiekijken wordt voor 0% verklaard door de variantie in leeftijd. Van sommige variabelen verwacht je dat ze dusdanig samenhangen, dat ze samen een nieuwe variabele vormen. Je kunt bijvoorbeeld beredeneren dat mensen die vaak naar Nederland 1 kijken, ook vaak naar Nederland 2 en Nederland 3 kijken. De variabelen ‘kijktijd Nederland 1’, ‘kijktijd Nederland 2’ en ‘kijktijd Nederland 3’ zou je bij elkaar kunnen optellen (via compute) om zo de nieuwe variabele ‘kijktijd publieke omproep’ te maken. Dit optellen van verschillende variabelen tot een nieuwe variabele is het maken van een ‘additieve indexscore’. -> Een nieuwe variabele aanmaken op basis van meerdere bestaande variabelen. Wanneer je van twee of meer variabelen één nieuwe variabele wilt maken doe je dat door middel van de optie Compute in SPSS. Compute is het ‘rekenmachinetje’ binnen SPSS, met deze functie kunnen we variabelen bij elkaar optellen, van elkaar aftrekken, met elkaar vermenigvuldigen etc. Compute kan alleen gebruikt worden wanneer het meetniveau van de variabele minimaal ordinaal is. Kies binnen het menu Transform de optie Compute, Er wordt een scherm geopend: “Compute variable”. In het veld “Target variable” voer je de naam in van de nieuwe variabele die je gaat aanmaken. Nu wil je de formule definiëren om de waarden van de nieuwe variabele te berekenen. De formule komt in het veld “numeric expression” te staan. Je kunt dit doen door te typen of door de variabelen en symbolen te selecteren met de muis. Als je klaar bent druk je op “OK”. Als men het verband dat tussen twee verschijnselen (variabelen) bestaat, gebruikt om de waarde van één van de variabelen te voorspellen uit de andere, spreekt men over regressie of regressieanalyse. Methode Regressieanalyse gebruikt de rechte lijn als model voor het verband tussen twee variabelen. Naarmate het verband tussen twee variabelen sterker is en ‘rechter’ (d.w.z. de score op de ene variabele neemt recht evenredig toe met de score op de andere variabele), zal de puntenwolk in het spreidingsdiagram meer op een rechte lijn gaan lijken. Het is dan steeds beter mogelijk om een rechte lijn te trekken door het spreidingsdiagram, waar alle punten dichtbij liggen. De regressielijn is die lijn die het dichtst bij alle punten in de grafiek ligt. Haar wiskundige formule is als volgt: – a geeft aan waar de regressielijn de y-as snijdt (ook wel intercept of constante genoemd) – b geeft de richting van de regressielijn aan (ook wel ongestandaardiseerde regressiecoëfficiënt genoemd) Hoe dichter alle punten (in het spreidingsdiagram) bij de regressielijn liggen, des te beter past de lijn en des te beter kun je op grond van de ene variabele de andere voorspellen. De proportie verklaarde variantie R 2 geeft aan, hoe goed de regressielijn past. Deze co euml;fficiënt ligt tussen de 0 en 1. Hoe hoger de coëfficiënt, des te beter past de lijn. De coëfficiënt is gelijk aan het kwadraat van de productmoment correlatiecoëfficiënt (R). Eisen : Regressieanalyse maakt een onderscheid tussen de afhankelijke en de onafhankelijke variabele. Op inhoudelijke gronden moet je zelf kiezen welke variabele afhankelijk is (voorspeld wordt) en welke onafhankelijk is (voorspelt). Regressieanalyse maakt gebruik van het rekenkundig gemiddelde. Daarom moeten beide variabelen minstens interval meetniveau hebben. Ook mogen de variabelen geen extreme waarden hebben, aangezien zij de richting van de regressielijn sterk kunnen beïnvloeden in een kleinedata-set (van enkele tientallen waarnemingen). Controle : Wanneer de regressielijn berekend is, moet nagegaan worden of de lijn goed genoeg op de gegevens past. De vuistregel hiervoor is dat de proportie verklaarde variantie R 2 minstens 0,25 moet zijn. Hoe kleiner het aantal eenheden in de analyse, hoe soepeler je deze vuistregel moet toepassen. Interpretatie : Wanneer de regressieanalyse een acceptabele regressielijn oplevert, moeten de resultaten geïnterpreteerd worden. Zowel de uitkomst van de regressievergelijking ( a en b ) als de proportie verklaarde variantie (R 2 ) moet in woorden worden weergegeven. Stel dat het aantal uur per week naar Net5 kijken (y) voorspeld kan worden op grond van iemands leeftijd met de vergelijking y = 1,2 + 0,5(x) met R 2 = 0,67. De interpretatie bevat dan de volgende onderdelen: – De ongestandaardiseerde regressiecoëfficiënt ( b ), oftewel de toe- of afname van de afhankelijke variabele (y) bij één eenheid toename van de onafhankelijke variabele. Bijvoorbeeld: “wanneer iemand één jaar ouder is, neemt het aantal uur per week kijken naar Net5 gemiddeld met 0,5 toe”. Anders gezegd: hoe hoger de leeftijd, hoe meer naar Net5 wordt gekeken. – De intercept ( a ), oftewel de voorspelde waarde van de afhankelijke variabele (y) wanneer de onafhankelijke variabele (x) nul is. Bijvoorbeeld: “wanneer iemand nul jaar oud is, kijkt diegene 1,2 uur per week naar Net5”. – De proportie verklaarde variantie ( R 2 ) kan geïnterpreteerd worden als het percentage verklaarde variantie in de afhankelijke variabele op grond van de onafhankelijke variabele. Bijvoorbeeld: “de variantie in het aantal uur Net5 kijken kan voor 67% verklaard worden door de variantie in leeftijd”. – De gestandaardiseerde regressiecoëfficiënt ( beta ), oftewel het zuivere effect van de onafhankelijke variabele op afhankelijke variabele Dat wil zeggen dat de waarde van de beta onafhankelijk is van de respectievelijke meeteenheden. Bij een enkelvoudige regressieanalyse (er is één onafhankelijke variabele) is de gestandaardiseerde regressiecoëfficiënt altijd gelijk aan de correlatiecoëfficiënt R, en geeft dus de correlatie/de samenhang aan tussen twee variabelen. Bij een meervoudige regressieanalyse (twee of meer onafhankelijke variabelen) geeft de Beta aan welke onafhankelijke variabele het sterkste effect heeft op de afhankelijke variabele. Deze gestandaardiseerde regressiecoëfficiënt kun je niet aflezen uit de regressievergelijking, maar wel vanuit een SPSS-output. De regressielijn is in SPSS te verkrijgen onder Analyze -> Regression -> Linear, Het onderstaande dialoogscherm wordt geopend, waarin de afhankelijke variabele ingevuld moet worden onder Dependent: en de onafhankelijke variabele moet ingevuld worden onder Independent(s):, Verder hoeft er niets ingevuld of veranderd te worden, om een enkelvoudige regressieanalyse uit te voeren. De regressieanalyse levert in het Output -scherm onder andere onderstaande tabellen op. Bij de enkelvoudige regressieanalyse zullen we alleen werken met de ongestandaardiseerde coëfficiënten, die je in de tabel vindt in de kolom B, De overige kolommen zijn vooralsnog niet interessant. De constante ( Constant ) geeft de waarde van a (de intercept) uit de regressievergelijking. De b (de ongestandaardiseerde regressiecoëfficiënt) uit de regressievergelijking vind je in de rij van de onafhankelijke variabele, hier: ‘leeftijd’. We vullen de formule y = a + b( x ) in: y = 3,653 + 0,022( x ) Telkens als x één eenheid groter wordt (in dit geval: iemand wordt één jaar ouder), neemt y met b = 0,022 (frequentie televisiekijken, gemeten in minuten) toe. Zo kunnen we dus een voorspelling geven over y (in dit geval: frequentie televisiekijken) wanneer we een waarde voor x weten (in dit geval: hoe oud iemand is). Wanneer iemand bijvoorbeeld 20 jaar is (x = 20) dan wordt de regressievergelijking: y = 3,653 + 0,022 * 20= 4,093. Het model voorspelt dat iemand van twintig jaar oud 4,093 uur televisiekijkt. De constante geeft het snijpunt van de regressielijn met de y-as. Dit is dus de voorspelde waarde wanneer de onafhankelijke variabele nul is. Wanneer iemand nul jaar oud is kijkt diegene 3,653 televisie. Maak spreidingsdiagram ( Graphs -> Legacy Dialogs -> Scatter/Dot -> Simple Scatter ). Dubbelklik op diagram in de output om Chart Editor te openen. Klik op icoontje ‘fit line total’, Kies bij proporties ‘linear’, Wanneer je met Analyze -> Regression -> Linear de regressielijn laat bepalen, wordt tevens de proportie verklaarde variantie (R 2 ) uitgerekend. Onderstaande tabel geeft een voorbeeld. De waarde van de proportie verklaarde variantie vind je in de kolom onder R Square, In dit geval werd gekeken naar de invloed van leeftijd op de frequentie van internetten. De conclusie zou dus luiden: de variantie in de frequentie internetten wordt voor 28,7% verklaard door de variantie in de leeftijd. Je zou ook kunnen zeggen: de variantie in leeftijd verklaart voor 28,7% de variantie in de frequentie internetten.

De volgorde maakt niet uit, als je maar wel in het formuleren van de conclusie bedenkt dat de onafhankelijke variabele altijd de afhankelijke verklaart en nooit andersom (immers, de frequentie van internetten kan niet bepalen hoe oud iemand is. Deze waarde van de proportie verklaarde variantie kan ook met de hand nagerekend worden.

Je hebt daar de tabel ‘ANOVA’ voor nodig die automatisch wordt uitgedraaid bij een regressieanalyse: De proportie verklaarde variantie wordt berekend door de onverklaarde variatie ( Residual ) af te trekken van de totale variatie (Total) en dit vervolgens te delen door de totale variatie (Total). In dit geval is dat dus (905,508 – 645,347) / 905,508 = 0,287.

Voor de interpretatie van de alle associatiematen kun je de volgende grove richtlijnen hanteren: 0-0,10: zeer zwak/geen verband; 0,11-0,30: zwak verband; 0,31-0,50: redelijk verband; 0,51-0,80: sterk verband; 0,81-0,99: zeer sterk verband; 1: perfect verband. Bij ordinale-, interval- en ratio- associatiematen spreek je echter niet alleen van de sterkte van de samenhang, maar ook van de richting.

Er zijn dan drie mogelijke situaties: – Er is een positieve samenhang: een stijgende lijn; als de waarde op de ene variabele hoger is, is hij op de andere variabele ook hoger. – Er is een negatieve samenhang: een dalende lijn; als de waarde op de ene variabele toeneemt, neemt hij op de andere variabele af. In het Simple Scatterplot kunnen we dan de variabelen kiezen die we op de x-as en de y-as van het spreidingsdiagram willen hebben. Zet de onafhankelijke variabele op de x-as en de afhankelijke variabele op de y-as. Het spreidingsdiagram geeft je al een indicatie van de sterkte en de richting van het verband. In onderstaande spreidingsdiagram is bijvoorbeeld te zien dat er een positieve samenhang is tussen leeftijd en uren gekeken naar Nederland 2 (ouderen kijken vaker Nederland 2 dan jongeren). Deze samenhang is redelijk sterk. : Methoden van Communicatieonderzoek en Statistiek (MCOS)

Wat is SS in statistiek?

Wat is de SS (sum of squares)? Wat is de formule hiervan? Antw. De SS zijn alle waarneming minus de gemiddelde bij elkaar opgeteld.

Hoe bereken je hoeveel iets is?

Uitleg – Rekenuitleg over het berekenen van een percentage. Vaak wordt er gevraagd om twee getallen uit te drukken als een percentage ten opzichte van elkaar. Handige tip hierbij is dat je hiermee kunt rekenen door de formule ‘deel : geheel x 100′. In de video’s wordt er gesproken over ‘boven : onder x 100′. Kies de manier die het beste bij je past. Gratis downloads

De opdrachten uit de video met nakijkblad Opdracht Video Extra opdracht bij het onderwerp met nakijkblad Extra Opdracht

Wat is s v * t?

Rekenen met snelheid Hierin is v de snelheid, s de afstand en t de tijd. Om de gemiddelde snelheid uit te rekenen moet je de afstand delen door de tijd.

Wat zegt de F waarde ANOVA?

De logica achter ANOVA – De \(F\) -toets die hoort bij ANOVA, soms een exacte \(F\) -test genoemd, toetst dus of de gemiddelden van een kwantitatieve variabele in meerdere groepen van elkaar verschillen. ANOVA lijkt qua doel daarom erg op de \(t\) -toets of de \(z\) -toets en is ook bedacht als een variant van deze toetsen.

  • De \(t\) – en de \(z\) -toets hebben als beperking dat zij slechts twee groepen met elkaar kunnen vergelijken.
  • ANOVA kan twee of meer groepsgemiddelden vergelijken.
  • Om de logica achter ANOVA te begrijpen, helpt het om de formule van de \(z\) -toets weer voor de geest te halen, inclusief de beperkingen die deze toets heeft.

De \(z\) -waarde voor de \(z\) -toets wordt als volgt berekend. \ Hierbij drukt \(\bar \) het gemiddelde van de steekproef uit en \(\mu\) het populatiegemiddelde waartegen getoetst wordt. De \(s^ \) staat voor de variantie in de afhankelijke variabele, waarbij in een \(z\) -toets wordt aangenomen dat deze populatievariantie bekend is.

De \(N\) staat voor de steekproefgrootte. De \(z\) -waarde is een elegante manier om een ruw verschil tussen twee waarden te standaardiseren, Zonder de schaal te kennen is het onmogelijk om een ruw verschil tussen twee getallen als groot of klein te duiden. Door te delen door de standaarddeviatie, of in de meeste gevallen door de standaardfout, – in bovenstaande formule uitgedrukt als de populatievariantie gedeeld door de steekproefgrootte – drukken we het verschil uit in het aantal standaarddeviaties dat twee observaties van elkaar verschillen.

Een \(z\) -waarde van \(2\) betekent dus dat twee gemiddelden twee standaarddeviaties van elkaar verschillen. Met wat complex rekenwerk, of simpel zoekwerk in een \(z\) -waardentabel, kan afgeleid worden dat een \(z\) -waarde van ongeveer \(2\) de top \(5\%\) van de populatie beschrijft.

De formule van de \(t\) -toets is nagenoeg identiek aan die van de \(z\) -toets. Het verschil zit erin dat er niet tegen populatieparameters getoetst wordt, maar er twee steekproefgemiddelden vergeleken worden. \ Net als bij de \(z\) -toets blijft het basisidee van de \(t\) -toets dat twee gemiddelden van elkaar worden afgetrokken.

De logica hierachter is dat als de twee gemiddelden perfect identiek zijn, zoals verondersteld in de (standaard) nulhypothese, dan is het verschil tussen de gemiddelden nul. Als groep \(1\) een gemiddelde van \(10\) heeft en groep \(2\) een van gemiddelde \(10\), dan is \(10-10 = 0\),

  1. De \(t\) -waarde of de \(z\) -waarde zal in zo’n geval ook \(0\) zijn, want nul gedeeld door iets is altijd nul.
  2. Anders dan bij de \(z\) -waarde, staat nu onder de deelstreep in plaats van de populatievariantie een maat voor de variantie in beide groepen.
  3. ANOVA heeft niet eenzelfde elegante, eenvoudige formule.

In plaats van groepsgemiddelden van elkaar af te trekken worden de groepsgemiddelden als varianties behandeld. Waarom zo moeilijk doen? De eenvoud achter de \(t\) -toetsformule maakt het vaak onnodig om alle onderliggende assumpties expliciet te benoemen, maar nu ANOVA ten tonele komt, kunnen we hier niet meer omheen.

Het verschil tussen ANOVA en de \(t\) -toets is namelijk niet zozeer een verschil in formules, maar een verschil in wat de groepsgemiddelden voorstellen. De \(t\) -toets zoals hierboven besproken heeft als volledige naam de \(t\) -toets voor onafhankelijke steekproeven. Deze ingewikkelde naamgeving heeft een functie.

Het drukt namelijk de volgende nulhypothese van een \(t\) -toets uit. \ In statistische wiskunde worden Griekse letters gebruikt om populatieparameters uit te drukken. Een t-toets vergelijkt dus niet zomaar twee gemiddelden, maar twee populatiegemiddelden.

Een t-toets heeft eigenlijk een best ingewikkelde onderliggende logica. De \(\mu\) geeft aan dat bij een \(t\) -toets aangenomen wordt dat de populatiegemiddelden bekend zijn. De \(t\) -toets en de \(z\) -toets verschillen eigenlijk alleen in het feit dat bij de \(t\) -toets de populatievariantie als nog niet bekend verondersteld wordt, maar de populatiegemiddelden wel.

De \(t\) -toets toetst dus alleen nog of de twee steekproeven dezelfde populaties uitdrukken, of in ieder geval de gemiddelden daarvan. ANOVA weerspiegelt een andere tak van groepsgemiddelden. Specifiek kan one-way ANOVA gezien worden als een toets van de homogeniteit van gemiddelden.

  1. Hiermee wordt bedoeld dat er, in tegenstelling tot bij de t-toets, in ANOVA geen verschillende populaties vergeleken worden, maar dat iedere groep eigenlijk een subgroep is van een hogere orde factor,
  2. Bij ANOVA worden subgroep-gemiddelden uit een populatie vergeleken met het globale populatiegemiddelde.

De vraag bij ANOVA is dus niet zozeer hoe je meer dan twee populatiegemiddelden kunt vergelijken, want het antwoord daarop is: doe gewoon meer t-toetsen. ANOVA toetst de homogeniteit van gemiddelden, met andere woorden of het mogelijk is om de subgroepengemiddelden van een populatie simpelweg met één populatiegemiddelde uit te drukken, of dat dit een te eenvoudig model is en dat een model waarin subgroepen verschillende gemiddelden hebben beter is.

  • Dit heeft als voordeel een eenvoudig te formuleren nulhypothese.
  • Om de nuances achter het idee van een factor te begrijpen, wordt hier een voorbeeld gegeven.
  • Stel, een onderzoeker wil katten en honden vergelijken op hun verzorgingsgemak.
  • Verzorgingsgemak is gemeten met een vragenlijst waarin mensen gevraagd werden katten en honden te scoren op allerlei criteria zoals kosten van voedsel, dierenarts, regelen oppas, zelfstandigheid van het dier, etc.

Verzorgingsgemak wordt uitgedrukt in een totale score van \(1\) (geen enkel gemak) – \(10\) (heel veel gemak). Honden kregen gemiddeld een gemaksscore van \(4\), Katten kregen een gemiddelde gemaksscore van \(6\), Het totale gemiddelde voor alle dieren samen (honden én katten) was \(5\),

Wat zegt de F toets?

Excel voor Microsoft 365 Excel voor Microsoft 365 voor Mac Webversie van Excel Excel 2021 Excel 2021 voor Mac Excel 2019 Excel 2019 voor Mac Excel 2016 Excel 2016 voor Mac Excel 2013 Excel 2010 Excel 2007 Excel voor Mac 2011 Excel Starter 2010 Meer.Minder In dit artikel worden de syntaxis van de formule en het gebruik van de functie F.TOETS in Microsoft Excel beschreven.

  • Geeft het resultaat van een F-toets.
  • Een F-toets berekent de tweezijdige kans dat de varianties van matrix1 en matrix2 niet significant verschillen.
  • U gebruikt deze functie om te bepalen of de varianties van twee steekproeven van elkaar verschillen.
  • Uitgaande van de testresultaten van openbare en bijzondere scholen, kunt u met deze functie bijvoorbeeld toetsen of deze scholen verschillende niveaus van diversiteit hebben.

Belangrijk: Deze functie is vervangen door een of meer nieuwe functies die nauwkeuriger zijn en een duidelijkere naam hebben. Deze functie is op dit moment nog beschikbaar ten behoeve van compatibiliteit met eerdere versies, maar u wordt aangeraden om vanaf nu de nieuwe functies te gebruiken, omdat deze functie mogelijk in een toekomstige versie van Excel wordt verwijderd.

Wat is het verschil tussen variantie en standaarddeviatie?

Beide maten zeggen iets over de spreiding in een verdeling, maar de eenheden verschillen : De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters). De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).

Wat meet je met een ANOVA?

Wat is een ANOVA en waarvoor wordt de toets gebruikt? Bij een is de dat er geen verschil is tussen de groepsgemiddelden. Als een groep significant verschilt van het algemene groepsgemiddelde, dan zal de ANOVA een resultaat rapporteren. Significante verschillen tussen worden berekend met behulp van een F -statistiek, die de verhouding weergeeft tussen de gemiddelde som van de kwadraten (de die door de onafhankelijke variabele wordt verklaard) en de gemiddelde kwadratische fout (de variantie die overblijft).

Het toetsen van de gecombineerde effecten van vaccinatie (gevaccineerd of niet gevaccineerd) en gezondheidsstatus (gezond of al bestaande aandoening) op de mate van griepinfectie in een,

Het toetsen van de effecten van burgerlijke staat (gehuwd, ongehuwd, gescheiden, weduwnaar), beroepsstatus (zelfstandig, werkend, werkloos, gepensioneerd) en familiegeschiedenis (geen familiegeschiedenis, enige familiegeschiedenis) op de incidentie van depressie in een populatie.

Het toetsen van effecten van het soort voeding (soort A, B of C) en stalbezetting (niet vol, enigszins vol, zeer vol) op het eindgewicht van kippen in een commercieel landbouwbedrijf.

Het enige verschil tussen een one-way ANOVA en een two-way ANOVA is het aantal, Een one-way ANOVA heeft één onafhankelijke variabele, terwijl een two-way ANOVA er twee heeft.

: Toetst de relatie tussen het merk schoen (Nike, Adidas, Saucony, Hoka) en de finishtijd van een marathon.

Two-way ANOVA: Toetst de relatie tussen het merk schoen (Nike, Adidas, Saucony, Hoka), leeftijdsgroep van de loper (junior, senior, master) en de finishtijd van een marathon.

Alle zijn bedoeld om te toetsen op verschillen tussen drie of meer groepen. Als je alleen op een verschil tussen twee groepen wilt testen, gebruik dan een, In de formule van de is lambda (λ) het gemiddelde aantal gebeurtenissen binnen een bepaald tijds- of ruimte-interval.

Bijvoorbeeld: λ = 0.748 overstromingen per jaar. De e in de formule van de staat voor het getal 2.718. Dit getal wordt de constante van Euler genoemd. Je kunt e simpelweg vervangen door 2.718 als je een kans van de Poissonverdeling berekent. De constante van Euler is een heel nuttig getal en is vooral belangrijk in de wiskunde.

Je kunt het beste alleen verwijderen als je daar een goede reden voor hebt. Sommige uitschieters vertegenwoordigen natuurlijke variatie in de en deze mogen niet worden verwijderd uit je dataset. Dit zijn echte uitschieters. Andere uitschieters zijn problematisch en moeten worden verwijderd uit je dataset.

  1. Het sorteren van je waarden van laag naar hoog en het controleren van minimum- en maximumwaarden.
  2. Het visualiseren van je data met een en zoeken naar uitschieters.
  3. De gebruiken om de grenzen voor je data te vinden.
  4. Statistische toetsen uitvoeren om extreme waarden te identificeren.

De werd voor het eerst beschreven door statisticus William Sealy Gosset onder het pseudoniem “Student”. Om een van een te berekenen met behulp van de kritieke waarde van t, volg je deze vier stappen:

  1. Kies het op basis van het gewenste betrouwbaarheidsniveau. Het meest gebruikelijke betrouwbaarheidsniveau is 95%, wat overeenkomt met α =,05 in de tweezijdige,
  2. Zoek de kritieke waarde van t in de tweezijdige t -tabel.
  3. Vermenigvuldig de kritieke waarde van t met,
  4. Tel deze waarde bij het gemiddelde op om de bovengrens van het betrouwbaarheidsinterval te berekenen, en trek deze waarde van het gemiddelde af om de ondergrens van het betrouwbaarheidsinterval te berekenen.

Je kunt de T.INV() functie gebruiken om de kritieke waarde van t te vinden voor eenzijdige toetsen in Excel. Voor tweezijdige toetsen gebruik je de T.INV.2T() functie. Voorbeeld: De kritieke waarde van t berekenen in Excel Om de kritieke waarde van t te berekenen voor een tweezijdige toets met df = 29 en α =,05, klik je op een lege cel en typ je: =T.INV.2T(0.05,29) Je kunt de qt() functie gebruiken om de kritieke waarde van t te vinden in R.

De functie geeft de kritieke waarde van t voor de eenzijdige toets. Als je de kritieke waarde van t voor een tweezijdige toets wilt, deel je het door twee. Voorbeeld: De kritieke waarde van t berekenen in R Om de kritieke waarde van t voor een tweezijdige toets met df = 29 en α =,05 te berekenen, gebruik je de volgende functie: qt(p =,025, df = 29) Je kunt de PEARSON() functie gebruiken om de ( r ) in Excel te berekenen.

Als je in de kolommen A en B staan, klik je op een lege cel en typ je “PEARSON(A:A, B:B)”. Er is geen functie om de van de correlatie direct te berekenen. Om een met behulp van de kritieke waarde van t, volg je deze vier stappen:

  1. Bereken de en van je,
  2. Zoek de kritieke waarde van deze t -waarde in de die hoort bij de juiste vrijheidsgraden.
  3. Bepaalde of de (absolute) t -waarde groter is dan de kritieke waarde van t,
  4. Verwerp de nulhypothese als de t -waarde van de steekproef groter is dan de kritieke waarde van t, Zo niet, dan verwerp je de nulhypothese niet.

Als er slechts één of twee zijn, heeft de de vorm van een omgekeerde “J”. Als er drie of meer vrijheidsgraden zijn, heeft de verdeling de vorm van een bult ( hump ). Naarmate het aantal vrijheidsgraden verder toeneemt, wordt de bult minder rechtsscheef en verschuift de piek van de bult naar rechts.

: Een negatieve excess kurtosis. Platykurtische verdelingen hebben een dunne staart, wat betekent dat ze weinig hebben.

: Een positieve excess kurtosis. Leptokurtische verdelingen hebben een dikke staart, wat betekent dat ze veel uitschieters hebben.

Een is jouw verwachte antwoord op de onderzoeksvraag. De onderzoekshypothese bevat meestal een verklaring ( x beïnvloedt y omdat). Een statistische hypothese is een wiskundige uitspraak over een populatieparameter. Statistische hypothesen komen altijd in paren: de,

In een goede komen de nul- en alternatieve hypothese logisch overeen met de onderzoekshypothese. Soms hoef je alleen de alternatieve hypothese te formuleren. De wordt vaak afgekort tot H a of H 1, Als de alternatieve hypothese wordt beschreven met wiskundige symbolen, bevat deze altijd een ongelijkheidssymbool (meestal ≠, maar soms ook ).

De wordt vaak afgekort tot H 0, Als de nulhypothese wordt beschreven met wiskundige symbolen, bevat deze altijd een gelijkheidssymbool (meestal =, maar soms ook ≥ of ≤). Er kan een onderscheid worden gemaakt tussen kwantitatieve en categorische :

  • Bij kwantitatieve variabelen representeren de data hoeveelheden (zoals een lengte, gewicht, leeftijd).
  • Bij categorische variabelen representeren de data groepen, zoals een ranking (bijvoorbeeld de eindposities bij het songfestival), classificaties (bijvoorbeeld kledingmerken), en binaire verdelingen (zoals kop of munt).

Zowel de en een kunnen worden gebruikt om het verschil tussen twee groepen te onderzoeken. Echter, een t-toets wordt gebruikt als je een kwantitatieve afhankelijke variabele hebt en een categorische onafhankelijke variabele (met twee groepen). Een chi-kwadraattoets voor samenhang wordt gebruikt bij twee categorische, De drie soorten (scheefheid) zijn:

Rechtsscheef (right skew). Een rechtsscheve verdeling (ook wel positief-scheve verdeling genoemd) is langer aan de rechterkant van de piek dan aan de linkerkant.

Linksscheef (left skew). Een linksscheve verdeling (ook wel negatief-scheve verdeling genoemd) is langer aan de linkerkant van de piek dan aan de rechterkant.

Zero skew. Een verdeling met zero skew (nul scheefheid) is symmetrisch, wat inhoudt dat de linker- en rechterkant spiegelbeelden van elkaar zijn.

en kurtosis zijn beide belangrijke maten voor de vorm van een verdeling.

  • Skewness (scheefheid) meet de asymmetrie van een verdeling.
  • Kurtosis (welving) meet de dikte van de staart van een verdeling ten opzichte van de,

Om het te berekenen, moet je het volgende weten:

  • De puntschatting waarvoor je het betrouwbaarheidsinterval opzet
  • De kritieke waarden voor de teststatistiek
  • De van je
  • De steekproefgrootte

Als je al deze dingen weet, kun je het betrouwbaarheidsinterval voor je schatting berekenen door ze in de formule voor het betrouwbaarheidsinterval te zetten die overeenkomt met je data. Wat de formule precies is hangt af van het type schatting (e.g., een gemiddelde of een proportie) en van de verdeling van je data.

Als je voor het verschil tussen groepen een nul bevat, betekent dit dat er een grote kans bestaat dat je geen verschil vindt tussen de groepen als je het experiment nog een keer uitvoert. Als je betrouwbaarheidsinterval voor een of nul bevat, betekent dit dat er een grote kans bestaat dat je geen correlatie vindt in je data als je het experiment nog een keert uitvoert.

In beide gevallen zul je ook een hoge vinden bij je statistische test. Dit houdt in dat je resultaten zouden kunnen voorkomen onder de, Dit zou betekenen dat de resultaten geen relatie tussen de variabelen ondersteunen. Een kritieke waarde is een waarde van de teststatistiek die de boven- en ondergrens van het definieert, of de drempelwaarde van in een statistische test.

Het beschrijft hoe ver je van het gemiddelde van de verdeling af moet liggen om een bepaalde hoeveelheid van de totale variatie in de data te dekken (i.e., 90%, 95%, 99%). Als je zowel een 95%-betrouwbaarheidsinterval als een drempelwaarde van statistische significantie van p = 0.05 aanhoudt, dan zullen je kritieke waarden in beide gevallen identiek zijn.

Het bestaat uit de boven- en ondergrens van de schatting die je verwacht te vinden bij een gegeven betrouwbaarheidsniveau. Het betrouwbaarheidsniveau ( confidence level ) is het percentage van de keren dat je verwacht in de buurt van dezelfde schatting te komen als je je experiment nog een keer uitvoert of opnieuw op dezelfde manier een steekproef uit de populatie haalt.

Voorbeeld Je wilt weten wat het gemiddelde aandeel is van het aantal meisjes dat elk jaar geboren wordt. Hiertoe gebruik je een willekeurige steekproef van baby’s. Met een 95%-betrouwbaarheidsinterval vind je een bovengrens van 0.56 en een ondergrens van 0.48. Het betrouwbaarheidsniveau is 95%. De z -waarde en t- waarde (ook wel z -score en t -score) geven aan hoeveel je van het van de verdeling verwijderd bent, mits je data een z -verdeling of een volgen.

Als uit je test een z -score van 2.5 naar voren komt, betekent dit dat je schatting 2.5 standaarddeviaties van het gemiddelde afwijkt. Het voorspelde gemiddelde en de voorspelde verdeling van je schatting worden bepaald door de van de statistische test die je uitvoert.

  1. Hoe meer standaarddeviaties van het gemiddelde je schatting afwijkt, hoe kleiner de kans dat je schatting daadwerkelijk onder je nulhypothese heeft kunnen plaatsvinden.
  2. De standaardnormale verdeling, ook wel z -verdeling genoemd, is een speciale waarbij het gelijk is aan 0 en de gelijk is aan 1.
  3. Elke normale verdeling kan worden omgezet in de standaardnormale verdeling door de individuele waarden om te zetten in z -waarden ( z -scores).

In een z -verdeling geven z -scores aan hoeveel standaarddeviaties elke waarde van het gemiddelde afligt. Je kunt de samenvattingsfunctie() (ook wel summary () function) gebruiken om R² () van een lineair model weer te geven in R. Onderaan de output zie je “R-kwadraat” (“R-squared”) staan.

De ( R ²) is een getal tussen de 0 en 1 dat de mate aanduidt waarin een statistisch model in staat is een bepaalde uitkomst te voorspellen. Je kunt de R ² interpreteren als de proportie (het deel) van de in de die wordt voorspeld door het statistisch model. Het is altijd duidelijk of een getal een is.

Om te bepalen met welke van de twee je te maken hebt, kun jezelf de volgende vragen stellen:

  • Beschrijft het getal een gehele, complete populatie waarbij elk lid kan worden bereikt voor de ?
  • Is het mogelijk om binnen een redelijke termijn data voor ieder lid van de populatie te verzamelen?

Als het antwoord op beide vragen ja is, is het getal waarschijnlijk een parameter. Als het antwoord op een van de vragen nee is, is de kans groter dat het om een statistiek gaat. Een is een waarde die een hele beschrijft (bijvoorbeeld het populatiegemiddelde), terwijl een statistiek een getal is dat een beschrijft (bijvoorbeeld het steekproefgemiddelde).

  • Er bestaat een omgekeerd evenredig verband tussen het risico op een en de statistische power van een onderzoek.
  • De power is de mate waarin een toets een daadwerkelijk bestaand effect correct kan detecteren.
  • Om het risico op een Type II-fout (indirect) te verkleinen, kun je de steekproef vergroten of het verhogen, omdat je zo de statistische power vergroot.

Het risico op een is gelijk aan het dat je kiest voor je onderzoek. Je vergelijkt de met dit niveau om te bepalen of je resultaten zijn. Het significantieniveau is meestal 0.05 of 5%. Dit betekent dat er een kans van 5% is dat de gevonden resultaten zouden voorkomen als de daadwerkelijk waar zou zijn.

  • Als je een Type I-fout maakt, verwerp je de ten onrechte.
  • Als je een Type II-fout maakt, verwerp je de nulhypothese ten onrechte niet.

De is een meer conservatieve vorm van de standaardnormale verdeling (ook wel z -verdeling of standard normal distribution genoemd). Dit betekent dat de t -verdeling een lagere kansdichtheid geeft voor het centrum en een hogere kansdichtheid voor de staarten dan de standaard normaleverdeling.

  1. De boven- en ondergrenzen van een als de data ongeveer normaal verdeeld zijn.
  2. De van de teststatistiek voor t -toetsen en regressieanalyses.

De (ook wel t -distribution of Student’s t -distribution genoemd) wordt gebruikt als de data bij benadering normaal verdeeld zijn (en dus een klokvorm volgen), maar waarbij de onbekend is. De variantie in een t -verdeling wordt geschat op basis van het aantal vrijheidsgraden van de dataset (totaal aantal waarnemingen min 1). De t -verdeling is een variant op de, maar deze wordt gebruikt voor kleinere steekproeven, waarbij de onbekend is. Statistische power ( statistical power ) verwijst naar de waarschijnlijkheid dat een hypothesetoets een echt effect vaststelt als dat effect er is. Dit noem je ook wel het onderscheidend vermogen, Een toets met veel statistische power is beter in staat een Type II-fout ( false negative ) te voorkomen. Als je onderzoek onvoldoende power heeft, kan het voorkomen dat je geen resultaat vindt, zelfs als dit wel aanwezig is en praktische relevantie heeft. Hierdoor zou je ten onrechte de behouden. Er zijn tientallen maten voor de, De maten die het vaakst gebruikt worden zijn Cohen’s d en, Cohen’s d meet de grootte van een verschil tussen twee groepen, terwijl Pearson’s r de sterkte van een relatie tussen twee meet. Je kunt ze berekenen met behulp van statistische software (zoals ) of op basis van de, laat zien dat een effect, verschil of relatie bestaat in een onderzoek, terwijl (relevantie) laat zien dat het effect groot genoeg is om betekenisvol te zijn in de echte wereld. De statistische significantie wordt gerapporteerd met behulp van, terwijl de praktische relevantie wordt uitgedrukt met de, De laat zien hoe betekenisvol de relatie tussen of het verschil tussen groepen is. Het zegt iets over de (ook wel praktische significantie genoemd) van een onderzoeksresultaat. Een klein effect heeft weinig praktische implicaties, terwijl een groot effect juist veel praktische implicaties kan hebben. Het (alfa, α) geeft de maximale kans weer dat je de ten onrechte verwerpt (een Type I-fout). Je kiest het significantieniveau zelf voordat je een statistische toets uitvoert. Meestal kies je voor een α van 0.05 (5%) of 0.01 (1%). Praktische significantie (ook wel praktische relevantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek. De effectgrootte wordt gerapporteerd als aanvulling op de, Klinische significantie (ook wel klinische relevantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert. De klinische significantie vormt een aanvulling op, Nee, de zegt niets over de alternatieve hypothese. De p -waarde geeft aan hoe waarschijnlijk het is dat de data die je hebt gevonden zouden voorkomen als de waar zou zijn. Als de p -waarde onder je grenswaarde (vaak p < 0.05) valt, kun je de nulhypothese verwerpen, maar dit betekent niet per se dat je alternatieve hypothese waar is. Je berekent meestal automatisch met het programma dat je gebruikt voor je statistische analyse (zoals of R). Je kunt de p-waarde ook schatten met behulp van tabellen voor de teststatistiek die je gebruikt. P -waarden vertellen je hoe vaak een teststatistiek waarschijnlijk zou voorkomen onder de, op basis van de positie van de teststatistiek in de nulverdeling. Als de teststatistiek ver verwijderd is van het van de nulverdeling, dan is de p -waarde klein. Dit laat zien dat het niet waarschijnlijk is dat de teststatistiek zou voorkomen als de nulhypothese waar is. De of standaardafwijking wordt afgeleid van de en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie. Beide maten zeggen iets over de in een verdeling, maar de eenheden verschillen:

  • De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
  • De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).

Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of genoemd), gebruiken steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de van de om te beoordelen of de waaruit ze afkomstig zijn van elkaar verschillen.

is een gestandaardiseerde maat voor de samenhang tussen variabelen, terwijl chi-kwadraat geen gestandaardiseerde maat is. Met de kun je enkel beoordelen of het verschil tussen twee of meerdere verdelingen van elkaar verschillen. Door de waarde voor chi-kwadraat om te zetten in Cramer’s V, kun je waarden met elkaar vergelijken.

Je kunt met behulp van de volgende vuistregels:

Waarde Cramer’s V Sterkte samenhang
Geen samenhang
0.1 Zwakke samenhang
0.3 Gemiddelde (matige) samenhang
0.5 Sterke samenhang
1 Perfecte samenhang

In de praktijk komt de waarde 0 of 1 eigenlijk nooit voor. is een maat voor de effectgrootte die informatie geeft over de statistische samenhang tussen twee of meer van, De waarde ligt tussen 0 en 1 en geeft aan hoe sterk twee categorische variabelen samenhangen.

De is de beste voor scheve verdelingen of datasets met uitbijters (ook wel uitschieters of genoemd). De maat is gebaseerd op waarden uit de middelste helft van de dataset, waardoor het onwaarschijnlijk is dat de interkwartielafstand wordt beïnvloed door extreme waarden. Het geeft je de spreiding van de gehele dataset, terwijl de je de spreiding van de middelste helft van de dataset geeft.

Sum of Squares (Total, Between, Within)

zeggen iets over het punt waar de meeste waarden geclusterd zijn (het midden of het centrum van je dataset). Spreidingsmaten geven informatie over de afstand tussen datapunten (hoe verspreid zijn de data). Datasets kunnen dezelfde centrale tendens hebben en een verschillende mate van spreiding (of andersom).

  • ( range ): het verschil tussen de hoogste en laagste waarde uit de dataset.
  • Interkwartielafstand ( interquartile range ): het bereik van het middelste deel van de dataset.
  • (standard deviation ): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.
  • Variantie ( variance ) : de standaarddeviatie in het kwadraat.

Nee, het kan alleen 0 of een positieve waarde zijn, omdat je deze spreidingsmaat berekent door de laagste waarde van de hoogste waarde af te trekken. Het (ook wel spreidingsbreedte of range genoemd) is het interval tussen de laagste en de hoogste waarde in de dataset.

Het is een veelgebruikte maat voor de spreiding ( variability ). Homoscedasticiteit houdt in dat de variantie van een variabele gelijk is voor meerdere groepen of dat de variantie van de foutterm gelijk is. Bij het uitvoeren van een of, analyseer je de variantie tussen de meerdere groepen. Dit kan getoetst kan worden met,

Bij moet de variantie van de foutterm gelijk zijn voor alle waarden van de verklarende variabele. Er mag dus niet meer of minder spreiding in de foutterm zijn voor grotere of lagere waarden van de verklarende variabele. Als er een sterk lineair verband is tussen verklarende variabelen, spreek je van multicollineariteit,

  • Multicollineariteit kan ertoe leiden dat de regressiecoëfficiënten in je slechter worden geschat.
  • De verklarende variabelen voorspellen elkaar dan en daardoor wordt er geen extra variantie verklaard in het regressiemodel.
  • Voorbeeld: Je voegt zowel lengte in centimeters als lengte in inches toe als verklarende variabelen aan je regressievergelijking.

Deze twee variabelen voorspellen elkaar, aangezien lengte in centimeters 2,54 maal de lengte in inches is, en zijn dus perfect lineair gecorreleerd. Er kunnen dan geen twee regressiecoëfficiënten worden berekend. Bij het uitvoeren van een is het belangrijk dat het verband tussen de verklarende variabele en de lineair is.

  • Dit betekent dat voor zowel lage als hoge waarden van de verklarende variabele de invloed gelijk is.
  • Voorbeeld: De verklarende variabele lengte beïnvloedt de afhankelijke variabele gewicht,
  • Een lineair verband betekent dat het gewicht net zoveel toeneemt als iemand van 150 cm naar 160 cm lengte groeit als van 180 cm naar 190 cm.

In het Nederlands gebruik je komma’s als decimaalteken, terwijl je in het Engels een punt gebruikt.

  • Nederlands: De appels kosten maar €5,12.
  • Engels: The apples only cost €5.12.

Voor duizendtallen gebruik je in het Nederlands punten, terwijl je in het Engels een komma gebruikt.

  • Nederlands: De koptelefoon kost €1.600.
  • Engels: The headphones cost €1,600.

Als je, is het wel gebruikelijk om ook in het Nederlands een punt als decimaalteken te gebruiken. Dit is zeker het geval als je de gebruikt. Als je vergelijkingen wilt, moet je op de volgende punten letten:

  • Gebruik spaties, dus a + b = c in plaats van a + b = c
  • Sluit vergelijkingen af met een punt
  • Cursiveer de variabelen (in dit geval a, b en c )
  • Gebruik om de volgorde van bewerkingen aan te geven, bijvoorbeeld: (a / b) + c in plaats van a / b + c

Vergelijkingen mogen in de tekst worden geplaatst, maar gecentreerd op een aparte regel heeft de voorkeur. Nummer deze vergelijkingen, zodat je ernaar kunt verwijzen. Dit nummer is altijd rechts uitgelijnd. Om te berekenen met klik je in de menubalk op:

  1. Analyze
  2. Scale
  3. Reliability Analysis

Vervolgens selecteer je de vragen waarvan je de interne consistentie wilt meten. Zorg er daarna voor dat “Alpha” geselecteerd is. Klik vervolgens op “Statistics” en vink “Scale if item deleted” aan. Alles staat nu goed: klik nu op “Continue” en “ok” om de analyse uit te voeren. Hierbij staat s 2 ( X i ) voor de steekproefvariantie van vraag i, en s 2 ( Y ) voor de steekproefvariantie van de totale score. Je rapporteert meestal in de om aan te tonen dat je gebruikte vragenlijst betrouwbaar is. Je vermeldt het aantal items in je vragenlijst en de bijbehorende Cronbach’s alpha. Dit kun je op de volgende manier doen:

  • De klanttevredenheidsschaal is betrouwbaar, Cronbach’s alpha voor de drie items is,850.
  • De schaal voor klanttevredenheid is betrouwbaar (3 items; ⍺ =,850).

Bekijk ook ons artikel over APA-stijl richtlijnen voor het, Als je niet is, kun je kijken of je de data kunt transformeren. Het kan namelijk zijn dat een variabele zelf niet normaal verdeeld is, maar het logaritme of het kwadraat wel. Als ook dit niet het geval is, kun je niet-parametrische toetsen gebruiken, zoals de Wilcoxon- of Mann-Whitney-toets, in plaats van de,

  • Veel statistische toetsen, zoals een t-toets of ANOVA, kunnen alleen geldige resultaten opleveren als sprake is van een,
  • Als je data scheef verdeeld zijn, kan het voorkomen dat je resultaten niet valide zijn.
  • De aanname van een normale verdeling is vooral belangrijk bij steekproeven kleiner dan 30 observaties.

Als je steekproef meer dan 30 observaties bevat, dan kun je volgens de centrale limietstelling ( central limit theorem ) aannemen dat aan de aanname van normaliteit wordt voldaan. Er zijn zes stappen om de (al kun je deze maat in Excel of SPSS automatisch laten berekenen).

  1. Maak een lijst van alle scores en vind het,
  2. Trek het gemiddelde af van iedere score om de afstand (afwijking) tot het gemiddelde te berekenen.
  3. Bereken voor iedere afwijking het kwadraat.
  4. Tel alle gekwadrateerde afwijkingen bij elkaar op.
  5. Deel de som van de gekwadrateerde afwijkingen door N – 1.
  6. Trek de wortel van het gevonden nummer bij stap 5.

De ( standard deviation of s ) is de gemiddelde hoeveelheid variabiliteit in je dataset. Deze maat vertelt je hoe ver iedere score gemiddeld van het gemiddelde verwijderd is. Des te groter de standaarddeviatie, des te meer variabel je dataset is. Een is een uitbreiding van de enkelvoudige regressie waarbij twee of meer verklarende variabelen worden gebruikt om de ( Y ) te voorspellen of verklaren.

  • Je gebruikt een enkelvoudige regressieanalyse als je het effect van één op een wilt testen.
  • Voorbeeld: Je wilt aan de hand van lengte (verklarende variabele X ) iemands gewicht (afhankelijke variabele Y ) voorspellen of verklaren.
  • Een enkelvoudige regressie kan worden uitgedrukt met de volgende vergelijking:
  • Y = α + βX + u

worden gebruikt om het effect te bepalen van een (of meerdere) verklarende variabele(n), zoals lengte of leeftijd, op een zoals gewicht. Je kunt regressieanalyse gebruiken om:

  1. Samenhang tussen twee variabelen te bepalen (leeftijd en waarde van een auto)
  2. Verandering van de afhankelijke variabele te voorspellen (waarde van een auto naarmate deze ouder wordt)
  3. Toekomstige waarde te voorspellen (waarde van een zes jaar oude auto)

Je gebruikt een als je dezelfde groep respondenten meerdere malen onderzoekt () Voorbeeld: Je meet de gemiddelde lengte van respondenten in 2008, 2013, en 2018. Je vergelijkt dan de gemiddelde lengte van dezelfde persoon over een bepaalde periode om te kijken of deze verandert.

  • Je gebruikt een (ook wel MANOVA) als je meerdere gebruikt.
  • Je kunt deze ANOVA zowel gebruiken met één als meerdere groepsvariabelen (onafhankelijke variabelen).
  • Voorbeeld: Je wilt niet alleen niet alleen de gemiddelde lengte, maar ook het gemiddelde gewicht van verschillende groepen sporters vergelijken.

Je kunt beter een MANOVA uitvoeren dan meerdere losse ANOVA’s, om het risico op een Type I-fout te voorkomen. Je gebruikt een (ook wel factorial ANOVA) als je twee of meer groepsvariabelen (onafhankelijke variabelen) in je hebt. Voorbeeld: Je vergelijkt de gemiddelde lengte van verschillende typen sporters én hun gender.

Er wordt dan niet alleen getest of het gemiddelde verschilt voor volleyballers en turners en voetballers, maar ook voor mannen, vrouwen en mensen met een ander gender, én of er eventuele interactie-effecten zijn. Je gebruikt een wanneer één groepsvariabele (onafhankelijke variabele) de groepen bepaalt en er maar één is.

Voorbeeld: Je vergelijkt de gemiddelde lengte van verschillende typen sporters, zoals voetballers, turners en volleyballers. Het type sport dat iemand beoefent, is in dit geval de enige groepsvariabele en lengte is de enige afhankelijke variabele. Je gebruikt een ( paired samples t-test ) om twee gemiddelden van gepaarde met elkaar te vergelijken.

Gepaarde steekproeven zijn afhankelijk van elkaar. Voorbeeld: Paired samples t-test Je meet de lengte van dezelfde personen in 2015 en 2018. Deze waarden zijn afhankelijk van elkaar (omdat je dezelfde persoon meet), en daarom gebruik je een paired samples t-test. De (ook wel independent samples t-test of ongepaarde t-test genoemd) gebruik je om te onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.

Voorbeeld: Independent samples t-test Je wilt weten of de gemiddelde sprintsnelheid van kinderen uit groep 7 afwijkt van die van kinderen uit groep 8. Je gebruikt de om te analyseren of het gemiddelde van een significant verschilt van een bepaalde waarde.

  • One sample t-test : om te analyseren of het gemiddelde van een significant afwijkt van een bepaalde waarde.
  • Onafhankelijke t-test ( independent samples t-test ): om te onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.
  • Gepaarde t-test ( paired samples t-test ): om te onderzoeken of twee gemiddelden van gepaarde steekproeven van elkaar verschillen.

De, ook wel t-toets genoemd, wordt gebruikt om de gemiddelden van maximaal twee groepen met elkaar te vergelijken. Je kunt de t-test bijvoorbeeld gebruiken om te analyseren of moedertaalsprekers gemiddeld sneller spreken dan niet-moedertaalsprekers. Als je meer dan twee groepen wilt vergelijken, moet je een andere toets gebruiken, zoals de,

  • Je data te visualiseren
  • Je data samen te vatten met
  • Hypothesen te toetsen met inferentiële statistiek
  • De verdeling van je data te controleren ( of scheef verdeeld)
  • te berekenen
  • Andere statistische analyses uit te voeren

staat oorspronkelijk voor Statistical Package for the Social Sciences. Het is een statistisch computerprogramma ontwikkeld voor de sociale wetenschappen, maar wordt tegenwoordig ook veel gebruikt binnen andere sectoren zoals de economische wetenschappen.

  • geen enkele modus: alle waarden zijn anders
  • unimodaal: één modus
  • bimodaal: twee modi
  • trimodaal: drie modi
  • multimodaal: vier of meer modi

Je kunt de bepalen met behulp van de volgende stappen:

  1. Als je data numeriek van aard zijn, rangschik je de waarden van laag naar hoog. Als je data categorisch zijn, verdeel je de waarden over de juiste categorieën.
  2. Zoek de waarde of waarden die het vaakst voorkomen.

Om de te vinden, zet je de waarden in je dataset van laag naar hoog. Vervolgens bepaal je de middelste positie op basis van n (het aantal waarden in je dataset).

  • Als n een oneven getal is, vind je de mediaan op positie,
  • Als n een even getal is, is de mediaan het van de waarden op posities en,

De is de meest informatieve voor scheve verdelingen of verdelingen met uitbijters. De mediaan wordt bijvoorbeeld vaak gebruikt als centrummaat voor de variabele “inkomen”, die over het algemeen niet is. Aangezien je voor de mediaan slechts één of twee waarden in het midden gebruikt, wordt deze maat niet beïnvloed door extreme uitbijters of niet-symmetrische verdelingen.

  1. Bereken de som door alle waarden bij elkaar op te tellen.
  2. Deel de som door het aantal waarden in de dataset.

Deze methode werkt zowel voor, Ook maakt het niet uit of je te maken hebt met positieve (+2) of negatieve waarden (-2). (measures of central tendency) helpen je het centrum of midden van een dataset te vinden. De drie meest gebruikte centrummaten zijn het gemiddelde, de mediaan en de modus.

  • De is de waarde die het vaakst voorkomt
  • De is de middelste waarde als je de dataset van kleinste naar grootste waarde rangschikt.
  • Het is de som van alle waarden, gedeeld door het totale aantal waarden.
  • Univariate statistieken vatten één per keer samen.
  • Bivariate statistieken vergelijken twee variabelen,
  • Multivariate statistieken vergelijken drie of meer variabelen,

De drie belangrijkste hebben betrekking op de frequentieverdeling, centrale tendens en variabiliteit van de dataset.

  • Verdeling ( distribution ) verwijst naar de frequentie waarmee bepaalde antwoorden voorkomen.
  • Centrummaten ( measures of central tendency ) geven je het gemiddelde voor iedere vraag.
  • Spreidingsmaten ( measures of variability ) laten je de mate van spreiding in de dataset zien.

Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p -waarde (overschrijdingskans). Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de waar is. Een andere drempel die vaak wordt gekozen is p < 0.01. Als de p -waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is. Met (ook wel descriptieve statistiek genoemd) vat je de kenmerken van een dataset samen. Met toetsende statistiek (ook wel inferentiële of verklarende statistiek genoemd) toets je een of bepaal je of je data zijn naar een bredere populatie. is de meest belangrijke methode om onderzoeksgegevens te analyseren. Hierbij wordt gebruikgemaakt van kansen en modellen om voorspellingen over een te toetsen op basis van steekproefdata. Hoewel – en beide kunnen worden gecategoriseerd, gerangschikt en gelijke afstanden hebben tussen aangrenzende waarden (gelijke intervallen), hebben alleen ratiodata een absoluut of betekenisvol nulpunt. De temperatuur in Celsius of Fahrenheit is een voorbeeld van een intervalschaal, omdat nul niet de laagst mogelijke temperatuur is. Je kunt namelijk ook nog te maken hebben met min-temperaturen. Een Kelvin-temperatuurschaal is een voorbeeld van een ratioschaal, omdat nul het absolute nulpunt is. Er zijn geen min-temperaturen. Het nominale verschilt van het ordinale meetniveau, omdat nominale data alleen gecategoriseerd kunnen worden, maar ordinale data ook gerangschikt kunnen worden. Een voorbeeld van een is "Kledingwinkels". Je kunt de data bijvoorbeeld verdelen over Zara, H&M, Only en Primark, maar je kunt die kledingwinkels niet op een natuurlijke, logische manier rangschikken. Een voorbeeld van een is "Leeftijd". Je kunt de data bijvoorbeeld verdelen over 0-18, 19-34, 35-49 en 50+, en deze categorieën kun je in een logische volgorde zetten. kunnen worden verdeeld over categorieën (waarbij ieder datapunt maar in één categorie hoort) en de categorieën kunnen niet worden gerangschikt op een logische of natuurlijke manier. Een voorbeeld van een nominale variabele is "vervoersmiddel". Deze zou bijvoorbeeld uit de categorieën fiets, auto, bus, trein, metro en tram kunnen bestaan. Die vervoersmiddelen kunnen niet op een logische manier worden geordend, want het maakt bijvoorbeeld niet uit of je start met de fiets of de auto. In het geval van een, zoals "opleidingsniveau" zou je de opleidingsniveaus vmbo, havo, vwo wel op een logische manier kunnen rangschikken. Het nominale meetniveau is het minst complexe en minst precieze, hebben twee eigenschappen:

  • De data kunnen worden verdeeld over verschillende categorieën van de variabele.
  • De categorieën kunnen op een logische, natuurlijke manier worden gerangschikt.

Het ordinale meetniveau verschilt van het intervalmeetniveau, omdat de afstand tussen twee categorieën niet gelijk is of onbekend is. Stel je hebt de categorieën beginner, gevorderde en expert. Het is niet mogelijk om aan te geven of een beginner net zoveel verschilt van een gevorderde als een gevorderde van een expert. : Wat is een ANOVA en waarvoor wordt de toets gebruikt?

Hoe ANOVA berekenen?

Voor het berekenen van de F-waarde (Oneway Anova) gebruik ik de volgende formule: F = MSb/MSw. Om MSw (binnengroepenvariantie) vanuit SSw (binnengroepen sum of squares) te berekenen, deel ik SSw door Dfw (het aantal binnengroepen vrijheidsgraden). Geldt nu voor Dfw dat dit het totaal aantal cases is (n) of het totaal aantal cases minus 1 (n-1)? Om MSb (tussengroepenvariantie) vanuit SSb (tussengroepen sum of squares) te berekenen, deel ik SSb door Dfb (het aantal tussengroepen vrijheidsgraden).

Waarom ANOVA gebruiken?

Het ‘rekenwerk’ in een ANOVA – Het principe van de ANOVA als toets is relatief eenvoudig. Stel je hebt drie groepen: Nederlanders (N), Belgen (B) en Fransen (F). Stel, je hebt in elke groep 100 personen en van die personen heb je de lengte gemeten. Een individueel persoon duiden we aan met: y (i),

Als het gaat om een Nederlander dan duiden we dat aan met y (iN), een Belg met y (iB) en een Fransman met y (iF), Uit de gemeten waarden bereken je een algemeen gemiddelde; dit wordt aangeduid met de Griekse letter µ. In dit geval is dat dus de gemiddelde lengte van alle 300 personen. Ook voor iedere groep is een gemiddelde te berekenen.

Dit wordt aangeduid met y (j) (daar moet een streepje boven maar dat wil niet met deze editor). Je hebt dus een gemiddelde voor de lengte van de Nederlanders (y N ), de Belgen (y B ) en de Fransen (y F ). Er kunnen nu drie soorten varianties worden berekend: 1) de variantie als gevolg van de afwijking van de groepsgemiddelden ten opzichte van het algemene gemiddelde (y (j) t.o.v.

  • Μ). Dit is de variantie tussen de groepen,2) de variantie van elke onderzoekeenheid ten opzichte van het groepsgemiddelde (alle individuen in een groep t.o.v.
  • Het groepsgemiddelde.
  • Dus y (iN) t.o.v.
  • Y (N), y (iB) t.o.v.
  • Y (B) en y (iF) t.o.v. y (F) ).
  • Dit is de variantie binnen de groepen,3) de variantie van elke onderzoekseenheid ten opzichte van het algemeen gemiddelde (alle individuen t.o.v.

het algemeen gemiddelde. Dus y (i) t.o.v. µ). Dit is de totale variantie, De totale variantie (3) bestaat dus uit de variantie tussen de groepen (1) + de variantie van de individuen t.o.v. het groepsgemiddelde (2). Je kan nu vaststellen hoeveel procent van de groepsvariantie deel uitmaakt van de totale variantie (= 1/3) en hoeveel procent van de individuele variantie binnen de groepen deel uitmaakt van de totale variantie (= 2/3).

  1. Op die manier kun je aangeven hoeveel procent van de totale variantie verklaard kan worden door die groepsindeling.
  2. Alles wat niet door die groepsindeling verklaard kan worden noemt men dan de niet verklaarde variantie, of de restvariantie of de error.
  3. Met een ANOVA wil je nagaan of de variantie tussen de groepen substantieel is.

Dat wil zeggen, is de variantie tussen de groepen voldoende groot om te kunnen zeggen dat de drie gemiddelden van elkaar verschillen. Immers, als de variantie tussen de groepen 0 is, dan is er ook geen verschil tussen de gemiddelden. Het moet dus wel iets meer zijn, maar wanneer is het substantieel meer? Wanneer is het statistisch significant? Om dat vast te stellen ga je de variantie van de groepsgemiddelden delen door de variantie van de individuele onderzoekseenheden t.o.v.

De groepsgemiddelden (dat is dus het delen van twee varianties, vandaar variantieanalyse). Maar deze vergelijking is niet helemaal eerlijk, want de verschillen tussen de groepen is gebaseerd op een klein aantal groepen terwijl die binnen de groepen gebaseerd is op heel veel individuen. Daarom deel je eerst de varianties door het aantal vrijheidsgraden.

Je berekent dan een F-waarde en die is te vergelijken met een F-waarde in een tabellenboek. En als de berekende F-waarde groter is dan de kritieke waarde in de tabel, dan zegt men dat er een statistisch significant verschil is (zie het toetstheorema van Fisher ).

  1. Er is nog een beperkende factor: varianties mag je niet bij elkaar optellen of delen.
  2. Daarom gebruikt men slechts een deel van de formule: alleen het deel dat boven de deelstreep staat voor het berekenen van de variantie (zie voor de formule bij het begrip standaarddeviatie ).
  3. Het deel dat boven de deelstreep staat wordt de sum of squares (afgekort tot SoS) genoemd.

Als je de sum of squares deelt door het aantal vrijheidsgraden, krijg je de mean squares (afgekort als MS). Een overzicht van de te gebruiken formules staat in het schema hierna: Het berekenen van de toetswaarde (de F) is het delen van de mean square van de groepsscore door de mean square van de individuele score (zie de formule hieronder). Dit is een beetje tegen de verwachting in; zonder nadenken zou je kiezen voor het totaal. Er wordt echter getoetst als de eigen variantie gedeeld door het restant van de totale variantie (oftewel het totaal minus de eigen variantie).

Waarom SS?

De SS in breder perspectief De SS is één van de beruchtste organisaties uit de geschiedenis van de Tweede Wereldoorlog. De organisatie roept beelden op van blonde Ariërs, meedogenloze kampbewakers en de doodseskaders. De SS, ook wel Schutzstaffel genoemd, werd opgericht in 1925.

  • Haar oorspronkelijke doel: de persoonlijke lijfwacht van Adolf Hitler.
  • De SS richtte haar pijlen op alle aspecten van de samenleving.
  • Zo droeg de SS het nationaalsocialisme over op de bevolking, maar was ook belangrijk voor andere projecten binnen het Duitse Rijk.
  • Met het uitbreken van de Tweede Wereldoorlog werd de De Waffen-SS opgericht.

Het werd het belangrijkste en bekendste onderdeel van de SS. Ook was de SS verantwoordelijk voor de deportatie van Joden naar de vernietigingskampen. Tijdens het Proces van Neurenberg werden 24 kopstukken van het naziregime uit de Tweede Wereldoorlog voor de rechter gesleept.

Wat zegt ANOVA tabel?

Interpreteren SPSS output – De Descriptives tabel (zie hieronder) biedt een aantal zeer nuttige beschrijvende statistieken, waaronder het gemiddelde, de standaarddeviatie en 95% betrouwbaarheidsintervallen voor de afhankelijke variabele (salary) voor elke afzonderlijke groep (police, nurse, accountant), evenals wanneer alle groepen worden gecombineerd (Total). De ANOVA-tabel laat zien of er een statistisch significant verschil is tussen de groepsgemiddelden. We kunnen zien dat de significantiewaarde 0,000 is (p = 0,000). Dit is lager dan 0,05. Daarom is er sprake van een statistisch significant verschil in het gemiddelde salaris tussen de verschillende beroepsgroepen. Uit de resultaten tot nu toe weten we dat er statistisch significante verschillen zijn tussen de groepen als geheel. Onderstaande tabel, Multiple Comparisons, laat zien welke groepen van elkaar verschilden. De Tukey post-hoc-test heeft over het algemeen de voorkeur als post hoc-tests bij een one-way ANOVA, maar er zijn er nog veel meer. Op basis van bovenstaande resultaten kun je de resultaten van het onderzoek als volgt rapporteren (in het Engels, omdat dit de meest gebruikte taal is voor scripties met statistische analyse in Nederland): There was a statistically significant difference between groups as determined by one-way ANOVA (F(2,87) = 22.341, p =,000).

  • A Tukey post hoc test revealed that the salary of police officers (33289 ± 6705 euro, p = 0,000) and nurses (37094 ± 7393 euro, p = 0,000) was statistically significantly lower compared to accountants (48856 ± 12872 euro).
  • There was no statistically significant difference between police officers and nurses (p =,265).

Let op: dit omvat niet de resultaten van het toetsen van aannames of eventuele effectgrootteberekeningen.

Wat zegt een 95% betrouwbaarheidsinterval?

Voorbeeld – In ziekenhuis A werd tijdens het prevalentieonderzoek in maart 2011 bij 32 van de 411 patiënten een ziekenhuisinfectie geregistreerd. Het infectiepercentage was 7,8%. In maart 2012 werd het prevalentieonderzoek herhaald. Op dat moment werd bij 23 van de 425 patiënten een ziekenhuisinfectie geregistreerd.

Het infectiepercentage was 5,4%. Is in ziekenhuis A sprake van een statistisch significant verschil tussen de twee infectiepercentages? Het 95%-BI in 2011 was 5,6-10,8%. In maart 2012 was dit 3,6-8,0%. Ondanks dat het verschil tussen de infectiepercentages 2,4% is, overlappen de betrouwbaarheidsintervallen elkaar en is er dus waarschijnlijk geen statistisch significant verschil.

Dat het verschil niet statistisch significant is kunnen we bevestigen door het 95%-BI voor het verschil in infectiepercentages te berekenen, zie 95% BI bij een infectiepercentage of incidentiedichtheid, Het 95%-BI voor het verschil in infectiepercentage van 2,3% is: -0,99 (ondergrens) tot 5,74 (bovengrens).

Wat zegt de Z-waarde?

Wat geven z-scores weer? – Uitleg Statistiek: Z-Scores Als eerste kan je aan het teken (positief of negatief) meteen zien wie er van de steekproef boven en wie onder het gemiddelde zitten. Ook is het mogelijk om scores op verschillende variabelen met elkaar te vergelijken, omdat de meeteenheid van een variabele er op deze manier niet meer toe doet.

  1. Je kan Z-scores van verschillende variabelen dus vergelijken met elkaar en dan direct zien op welke je het hoogst scoort.
  2. Maar daarnaast wordt de Z-verdeling ook wel de normale verdeling genoemd.
  3. Z-scores kun je namelijk makkelijk vertalen in oppervlaktes onder de normaal curve, en dus omzetten in kansen of percentages.

Er is namelijk een vuistregel (de empirische regel) die zegt dat 68% van de personen tussen een Z-score van -1 en 1 zit, dat 95% van de personen een Z-score tussen -2 en 2 heeft, en 99,7% binnen 3 standaarddeviaties ten opzichte van het gemiddelde zit.

Wat zegt een Z toets?

De z-waarde en t-waarde (ook wel z-score en t-score) geven aan hoeveel standaarddeviaties je van het gemiddelde van de verdeling verwijderd bent, mits je data een z-verdeling of een t-verdeling volgen.

Hoe interpreteer je standaarddeviatie?

De standaardafwijking geeft de spreiding van de antwoorden op de vragenlijst rondom het gemiddelde aan. Voorbeeld: Op een toets wordt door vier leerlingen (Groep A) de volgende resultaten gehaald: 8, 6, 8, 10. Het gemiddelde cijfer van deze groep is: (8 + 6 + 8 + 10) / 4 = 8.

  1. Een andere groep (Groep B) haalt de volgende resultaten: 8, 8, 7, 9.
  2. Het gemiddelde cijfer van deze groep is: (8, 8, 7, 9) / 4 = 8.
  3. Beide groepen hebben dus gemiddeld een 8 gehaald.
  4. Als we kijken naar de spreiding van de resultaten rondom het gemiddelde, zien we wel verschillen.
  5. De standaardafwijking van groep A is namelijk 1.63 punten.

Oftewel, de cijfers van de leerlingen wijken gemiddeld 1.63 punten af van het gemiddelde cijfer 8. Van groep B is de standaardafwijking 0.82. In deze groep wijken de cijfers van de leerlingen dus gemiddeld 0.82 punten af van het gemiddelde cijfer 8.N.B.

  1. De standaardafwijking hoef je zelf niet te berekenen.
  2. Dit wordt voor je gedaan in het Excel format.
  3. Een kleine standaardafwijking betekent dat er weinig verschillen zijn tussen de scores van individuele leerlingen, terwijl een grote standaardafwijking betekent dat er grote verschillen zijn tussen de scores van individuele leerlingen en je dus voorzichtig dient te zijn bij de interpretatie.

Een aantal uitschieters kan de gemiddelde score zo sterk beïnvloeden.

Hoe interpreteer je variantie?

Het kwadraat van de gemiddelde afstand van het geheel van afzonderlijke waarnemingen ten opzichte van het populatie- of steekproefgemiddelde. Variantie wordt als volgt genoteerd: De variantie voor een populatie wordt genoteerd als sigma kwadraat: σ 2. De variantie voor een steekproef wordt genoteerd als S kwadraat: S 2.

Hoe variantie interpreteren?

Variantie Voorbeeld voor twee verzamelingen van 19 getallen (0, 5,,, 90 en 0, 37, 38,,, 53, 90). De variantie is in de een maat voor de spreiding van een reeks waarden, dat wil zeggen de mate waarin de waarden onderling verschillen. Hoe groter de variantie, hoe meer de afzonderlijke waarden onderling verschillen, en dus ook hoe meer de waarden van het “gemiddelde” afwijken.

  • De variantie meet min of meer het gemiddelde van het kwadraat van deze afwijkingen.
  • Die waarden kunnen de waarden van een zijn, dan spreekt men van de populatievariantie,
  • Betreft het de waarden van een, dan is de variantie een maat voor de “breedte” van deze verdeling, en spreekt men meestal gewoon van de variantie van deze verdeling.

Is de betrokken verdeling de kansverdeling van een X, dan spreekt men over de variantie van X, Betreft het de uitkomsten van een, dan spreekt men van steekproefvariantie, De populatievariantie is een (eigenschap) van de populatie; de steekproefvariantie s 2 } is een, een van de populatievariantie. De uit de variantie wordt, of genoemd.

Wat zegt de ANOVA?

Het ‘rekenwerk’ in een ANOVA – Het principe van de ANOVA als toets is relatief eenvoudig. Stel je hebt drie groepen: Nederlanders (N), Belgen (B) en Fransen (F). Stel, je hebt in elke groep 100 personen en van die personen heb je de lengte gemeten. Een individueel persoon duiden we aan met: y (i),

Als het gaat om een Nederlander dan duiden we dat aan met y (iN), een Belg met y (iB) en een Fransman met y (iF), Uit de gemeten waarden bereken je een algemeen gemiddelde; dit wordt aangeduid met de Griekse letter µ. In dit geval is dat dus de gemiddelde lengte van alle 300 personen. Ook voor iedere groep is een gemiddelde te berekenen.

Dit wordt aangeduid met y (j) (daar moet een streepje boven maar dat wil niet met deze editor). Je hebt dus een gemiddelde voor de lengte van de Nederlanders (y N ), de Belgen (y B ) en de Fransen (y F ). Er kunnen nu drie soorten varianties worden berekend: 1) de variantie als gevolg van de afwijking van de groepsgemiddelden ten opzichte van het algemene gemiddelde (y (j) t.o.v.

Μ). Dit is de variantie tussen de groepen,2) de variantie van elke onderzoekeenheid ten opzichte van het groepsgemiddelde (alle individuen in een groep t.o.v. het groepsgemiddelde. Dus y (iN) t.o.v. y (N), y (iB) t.o.v. y (B) en y (iF) t.o.v. y (F) ). Dit is de variantie binnen de groepen,3) de variantie van elke onderzoekseenheid ten opzichte van het algemeen gemiddelde (alle individuen t.o.v.

het algemeen gemiddelde. Dus y (i) t.o.v. µ). Dit is de totale variantie, De totale variantie (3) bestaat dus uit de variantie tussen de groepen (1) + de variantie van de individuen t.o.v. het groepsgemiddelde (2). Je kan nu vaststellen hoeveel procent van de groepsvariantie deel uitmaakt van de totale variantie (= 1/3) en hoeveel procent van de individuele variantie binnen de groepen deel uitmaakt van de totale variantie (= 2/3).

  1. Op die manier kun je aangeven hoeveel procent van de totale variantie verklaard kan worden door die groepsindeling.
  2. Alles wat niet door die groepsindeling verklaard kan worden noemt men dan de niet verklaarde variantie, of de restvariantie of de error.
  3. Met een ANOVA wil je nagaan of de variantie tussen de groepen substantieel is.

Dat wil zeggen, is de variantie tussen de groepen voldoende groot om te kunnen zeggen dat de drie gemiddelden van elkaar verschillen. Immers, als de variantie tussen de groepen 0 is, dan is er ook geen verschil tussen de gemiddelden. Het moet dus wel iets meer zijn, maar wanneer is het substantieel meer? Wanneer is het statistisch significant? Om dat vast te stellen ga je de variantie van de groepsgemiddelden delen door de variantie van de individuele onderzoekseenheden t.o.v.

  1. De groepsgemiddelden (dat is dus het delen van twee varianties, vandaar variantieanalyse).
  2. Maar deze vergelijking is niet helemaal eerlijk, want de verschillen tussen de groepen is gebaseerd op een klein aantal groepen terwijl die binnen de groepen gebaseerd is op heel veel individuen.
  3. Daarom deel je eerst de varianties door het aantal vrijheidsgraden.

Je berekent dan een F-waarde en die is te vergelijken met een F-waarde in een tabellenboek. En als de berekende F-waarde groter is dan de kritieke waarde in de tabel, dan zegt men dat er een statistisch significant verschil is (zie het toetstheorema van Fisher ).

  1. Er is nog een beperkende factor: varianties mag je niet bij elkaar optellen of delen.
  2. Daarom gebruikt men slechts een deel van de formule: alleen het deel dat boven de deelstreep staat voor het berekenen van de variantie (zie voor de formule bij het begrip standaarddeviatie ).
  3. Het deel dat boven de deelstreep staat wordt de sum of squares (afgekort tot SoS) genoemd.

Als je de sum of squares deelt door het aantal vrijheidsgraden, krijg je de mean squares (afgekort als MS). Een overzicht van de te gebruiken formules staat in het schema hierna: Het berekenen van de toetswaarde (de F) is het delen van de mean square van de groepsscore door de mean square van de individuele score (zie de formule hieronder). Dit is een beetje tegen de verwachting in; zonder nadenken zou je kiezen voor het totaal. Er wordt echter getoetst als de eigen variantie gedeeld door het restant van de totale variantie (oftewel het totaal minus de eigen variantie).