Standaarddeviatie Berekenen Excel
Standaarddeviatie berekenen met Excel of Google Sheets – Ga in een lege cel staan en vul de formule =STDEV.S() in. Tussen de haakjes selecteer je de gegevens waarna Excel de standaarddeviatie zal teruggeven. De,S achter STDEV laat Excel weten dat het hier om een steekproef gaat.
Contents
Hoe bereken je de standaarddeviatie uit?
Hoe bereken je de standaarddeviatie? Bij een is de dat er geen verschil is tussen de groepsgemiddelden. Als een groep significant verschilt van het algemene groepsgemiddelde, dan zal de ANOVA een resultaat rapporteren. Significante verschillen tussen worden berekend met behulp van een F -statistiek, die de verhouding weergeeft tussen de gemiddelde som van de kwadraten (de die door de onafhankelijke variabele wordt verklaard) en de gemiddelde kwadratische fout (de variantie die overblijft).
Het toetsen van de gecombineerde effecten van vaccinatie (gevaccineerd of niet gevaccineerd) en gezondheidsstatus (gezond of al bestaande aandoening) op de mate van griepinfectie in een,
Het toetsen van de effecten van burgerlijke staat (gehuwd, ongehuwd, gescheiden, weduwnaar), beroepsstatus (zelfstandig, werkend, werkloos, gepensioneerd) en familiegeschiedenis (geen familiegeschiedenis, enige familiegeschiedenis) op de incidentie van depressie in een populatie.
Het toetsen van effecten van het soort voeding (soort A, B of C) en stalbezetting (niet vol, enigszins vol, zeer vol) op het eindgewicht van kippen in een commercieel landbouwbedrijf.
Het enige verschil tussen een one-way ANOVA en een two-way ANOVA is het aantal, Een one-way ANOVA heeft één onafhankelijke variabele, terwijl een two-way ANOVA er twee heeft.
: Toetst de relatie tussen het merk schoen (Nike, Adidas, Saucony, Hoka) en de finishtijd van een marathon.
Two-way ANOVA: Toetst de relatie tussen het merk schoen (Nike, Adidas, Saucony, Hoka), leeftijdsgroep van de loper (junior, senior, master) en de finishtijd van een marathon.
Alle zijn bedoeld om te toetsen op verschillen tussen drie of meer groepen. Als je alleen op een verschil tussen twee groepen wilt testen, gebruik dan een, In de formule van de is lambda (λ) het gemiddelde aantal gebeurtenissen binnen een bepaald tijds- of ruimte-interval.
- Bijvoorbeeld: λ = 0.748 overstromingen per jaar.
- De e in de formule van de staat voor het getal 2.718.
- Dit getal wordt de constante van Euler genoemd.
- Je kunt e simpelweg vervangen door 2.718 als je een kans van de Poissonverdeling berekent.
- De constante van Euler is een heel nuttig getal en is vooral belangrijk in de wiskunde.
Je kunt het beste alleen verwijderen als je daar een goede reden voor hebt. Sommige uitschieters vertegenwoordigen natuurlijke variatie in de en deze mogen niet worden verwijderd uit je dataset. Dit zijn echte uitschieters. Andere uitschieters zijn problematisch en moeten worden verwijderd uit je dataset.
- Het sorteren van je waarden van laag naar hoog en het controleren van minimum- en maximumwaarden.
- Het visualiseren van je data met een en zoeken naar uitschieters.
- De gebruiken om de grenzen voor je data te vinden.
- Statistische toetsen uitvoeren om extreme waarden te identificeren.
De werd voor het eerst beschreven door statisticus William Sealy Gosset onder het pseudoniem “Student”. Om een van een te berekenen met behulp van de kritieke waarde van t, volg je deze vier stappen:
- Kies het op basis van het gewenste betrouwbaarheidsniveau. Het meest gebruikelijke betrouwbaarheidsniveau is 95%, wat overeenkomt met α =,05 in de tweezijdige,
- Zoek de kritieke waarde van t in de tweezijdige t -tabel.
- Vermenigvuldig de kritieke waarde van t met,
- Tel deze waarde bij het gemiddelde op om de bovengrens van het betrouwbaarheidsinterval te berekenen, en trek deze waarde van het gemiddelde af om de ondergrens van het betrouwbaarheidsinterval te berekenen.
Je kunt de T.INV() functie gebruiken om de kritieke waarde van t te vinden voor eenzijdige toetsen in Excel. Voor tweezijdige toetsen gebruik je de T.INV.2T() functie. Voorbeeld: De kritieke waarde van t berekenen in Excel Om de kritieke waarde van t te berekenen voor een tweezijdige toets met df = 29 en α =,05, klik je op een lege cel en typ je: =T.INV.2T(0.05,29) Je kunt de qt() functie gebruiken om de kritieke waarde van t te vinden in R.
De functie geeft de kritieke waarde van t voor de eenzijdige toets. Als je de kritieke waarde van t voor een tweezijdige toets wilt, deel je het door twee. Voorbeeld: De kritieke waarde van t berekenen in R Om de kritieke waarde van t voor een tweezijdige toets met df = 29 en α =,05 te berekenen, gebruik je de volgende functie: qt(p =,025, df = 29) Je kunt de PEARSON() functie gebruiken om de ( r ) in Excel te berekenen.
Als je in de kolommen A en B staan, klik je op een lege cel en typ je “PEARSON(A:A, B:B)”. Er is geen functie om de van de correlatie direct te berekenen. Om een met behulp van de kritieke waarde van t, volg je deze vier stappen:
- Bereken de en van je,
- Zoek de kritieke waarde van deze t -waarde in de die hoort bij de juiste vrijheidsgraden.
- Bepaalde of de (absolute) t -waarde groter is dan de kritieke waarde van t,
- Verwerp de nulhypothese als de t -waarde van de steekproef groter is dan de kritieke waarde van t, Zo niet, dan verwerp je de nulhypothese niet.
Als er slechts één of twee zijn, heeft de de vorm van een omgekeerde “J”. Als er drie of meer vrijheidsgraden zijn, heeft de verdeling de vorm van een bult ( hump ). Naarmate het aantal vrijheidsgraden verder toeneemt, wordt de bult minder rechtsscheef en verschuift de piek van de bult naar rechts.
: Een negatieve excess kurtosis. Platykurtische verdelingen hebben een dunne staart, wat betekent dat ze weinig hebben.
: Een positieve excess kurtosis. Leptokurtische verdelingen hebben een dikke staart, wat betekent dat ze veel uitschieters hebben.
Een is jouw verwachte antwoord op de onderzoeksvraag. De onderzoekshypothese bevat meestal een verklaring ( x beïnvloedt y omdat). Een statistische hypothese is een wiskundige uitspraak over een populatieparameter. Statistische hypothesen komen altijd in paren: de,
- In een goede komen de nul- en alternatieve hypothese logisch overeen met de onderzoekshypothese.
- Soms hoef je alleen de alternatieve hypothese te formuleren.
- De wordt vaak afgekort tot H a of H 1,
- Als de alternatieve hypothese wordt beschreven met wiskundige symbolen, bevat deze altijd een ongelijkheidssymbool (meestal ≠, maar soms ook ).
De wordt vaak afgekort tot H 0, Als de nulhypothese wordt beschreven met wiskundige symbolen, bevat deze altijd een gelijkheidssymbool (meestal =, maar soms ook ≥ of ≤). Er kan een onderscheid worden gemaakt tussen kwantitatieve en categorische :
- Bij kwantitatieve variabelen representeren de data hoeveelheden (zoals een lengte, gewicht, leeftijd).
- Bij categorische variabelen representeren de data groepen, zoals een ranking (bijvoorbeeld de eindposities bij het songfestival), classificaties (bijvoorbeeld kledingmerken), en binaire verdelingen (zoals kop of munt).
Zowel de en een kunnen worden gebruikt om het verschil tussen twee groepen te onderzoeken. Echter, een t-toets wordt gebruikt als je een kwantitatieve afhankelijke variabele hebt en een categorische onafhankelijke variabele (met twee groepen). Een chi-kwadraattoets voor samenhang wordt gebruikt bij twee categorische, De drie soorten (scheefheid) zijn:
Rechtsscheef (right skew). Een rechtsscheve verdeling (ook wel positief-scheve verdeling genoemd) is langer aan de rechterkant van de piek dan aan de linkerkant.
Linksscheef (left skew). Een linksscheve verdeling (ook wel negatief-scheve verdeling genoemd) is langer aan de linkerkant van de piek dan aan de rechterkant.
Zero skew. Een verdeling met zero skew (nul scheefheid) is symmetrisch, wat inhoudt dat de linker- en rechterkant spiegelbeelden van elkaar zijn.
en kurtosis zijn beide belangrijke maten voor de vorm van een verdeling.
- Skewness (scheefheid) meet de asymmetrie van een verdeling.
- Kurtosis (welving) meet de dikte van de staart van een verdeling ten opzichte van de,
Om het te berekenen, moet je het volgende weten:
- De puntschatting waarvoor je het betrouwbaarheidsinterval opzet
- De kritieke waarden voor de teststatistiek
- De van je
- De steekproefgrootte
Als je al deze dingen weet, kun je het betrouwbaarheidsinterval voor je schatting berekenen door ze in de formule voor het betrouwbaarheidsinterval te zetten die overeenkomt met je data. Wat de formule precies is hangt af van het type schatting (e.g., een gemiddelde of een proportie) en van de verdeling van je data.
- Als je voor het verschil tussen groepen een nul bevat, betekent dit dat er een grote kans bestaat dat je geen verschil vindt tussen de groepen als je het experiment nog een keer uitvoert.
- Als je betrouwbaarheidsinterval voor een of nul bevat, betekent dit dat er een grote kans bestaat dat je geen correlatie vindt in je data als je het experiment nog een keert uitvoert.
In beide gevallen zul je ook een hoge vinden bij je statistische test. Dit houdt in dat je resultaten zouden kunnen voorkomen onder de, Dit zou betekenen dat de resultaten geen relatie tussen de variabelen ondersteunen. Een kritieke waarde is een waarde van de teststatistiek die de boven- en ondergrens van het definieert, of de drempelwaarde van in een statistische test.
Het beschrijft hoe ver je van het gemiddelde van de verdeling af moet liggen om een bepaalde hoeveelheid van de totale variatie in de data te dekken (i.e., 90%, 95%, 99%). Als je zowel een 95%-betrouwbaarheidsinterval als een drempelwaarde van statistische significantie van p = 0.05 aanhoudt, dan zullen je kritieke waarden in beide gevallen identiek zijn.
Het bestaat uit de boven- en ondergrens van de schatting die je verwacht te vinden bij een gegeven betrouwbaarheidsniveau. Het betrouwbaarheidsniveau ( confidence level ) is het percentage van de keren dat je verwacht in de buurt van dezelfde schatting te komen als je je experiment nog een keer uitvoert of opnieuw op dezelfde manier een steekproef uit de populatie haalt.
- Voorbeeld Je wilt weten wat het gemiddelde aandeel is van het aantal meisjes dat elk jaar geboren wordt.
- Hiertoe gebruik je een willekeurige steekproef van baby’s.
- Met een 95%-betrouwbaarheidsinterval vind je een bovengrens van 0.56 en een ondergrens van 0.48.
- Het betrouwbaarheidsniveau is 95%.
- De z -waarde en t- waarde (ook wel z -score en t -score) geven aan hoeveel je van het van de verdeling verwijderd bent, mits je data een z -verdeling of een volgen.
Als uit je test een z -score van 2.5 naar voren komt, betekent dit dat je schatting 2.5 standaarddeviaties van het gemiddelde afwijkt. Het voorspelde gemiddelde en de voorspelde verdeling van je schatting worden bepaald door de van de statistische test die je uitvoert.
- Hoe meer standaarddeviaties van het gemiddelde je schatting afwijkt, hoe kleiner de kans dat je schatting daadwerkelijk onder je nulhypothese heeft kunnen plaatsvinden.
- De standaardnormale verdeling, ook wel z -verdeling genoemd, is een speciale waarbij het gelijk is aan 0 en de gelijk is aan 1.
- Elke normale verdeling kan worden omgezet in de standaardnormale verdeling door de individuele waarden om te zetten in z -waarden ( z -scores).
In een z -verdeling geven z -scores aan hoeveel standaarddeviaties elke waarde van het gemiddelde afligt. Je kunt de samenvattingsfunctie() (ook wel summary () function) gebruiken om R² () van een lineair model weer te geven in R. Onderaan de output zie je “R-kwadraat” (“R-squared”) staan.
- De ( R ²) is een getal tussen de 0 en 1 dat de mate aanduidt waarin een statistisch model in staat is een bepaalde uitkomst te voorspellen.
- Je kunt de R ² interpreteren als de proportie (het deel) van de in de die wordt voorspeld door het statistisch model.
- Het is altijd duidelijk of een getal een is.
Om te bepalen met welke van de twee je te maken hebt, kun jezelf de volgende vragen stellen:
- Beschrijft het getal een gehele, complete populatie waarbij elk lid kan worden bereikt voor de ?
- Is het mogelijk om binnen een redelijke termijn data voor ieder lid van de populatie te verzamelen?
Als het antwoord op beide vragen ja is, is het getal waarschijnlijk een parameter. Als het antwoord op een van de vragen nee is, is de kans groter dat het om een statistiek gaat. Een is een waarde die een hele beschrijft (bijvoorbeeld het populatiegemiddelde), terwijl een statistiek een getal is dat een beschrijft (bijvoorbeeld het steekproefgemiddelde).
Er bestaat een omgekeerd evenredig verband tussen het risico op een en de statistische power van een onderzoek. De power is de mate waarin een toets een daadwerkelijk bestaand effect correct kan detecteren. Om het risico op een Type II-fout (indirect) te verkleinen, kun je de steekproef vergroten of het verhogen, omdat je zo de statistische power vergroot.
Het risico op een is gelijk aan het dat je kiest voor je onderzoek. Je vergelijkt de met dit niveau om te bepalen of je resultaten zijn. Het significantieniveau is meestal 0.05 of 5%. Dit betekent dat er een kans van 5% is dat de gevonden resultaten zouden voorkomen als de daadwerkelijk waar zou zijn.
- Als je een Type I-fout maakt, verwerp je de ten onrechte.
- Als je een Type II-fout maakt, verwerp je de nulhypothese ten onrechte niet.
De is een meer conservatieve vorm van de standaardnormale verdeling (ook wel z -verdeling of standard normal distribution genoemd). Dit betekent dat de t -verdeling een lagere kansdichtheid geeft voor het centrum en een hogere kansdichtheid voor de staarten dan de standaard normaleverdeling.
- De boven- en ondergrenzen van een als de data ongeveer normaal verdeeld zijn.
- De van de teststatistiek voor t -toetsen en regressieanalyses.
De (ook wel t -distribution of Student’s t -distribution genoemd) wordt gebruikt als de data bij benadering normaal verdeeld zijn (en dus een klokvorm volgen), maar waarbij de onbekend is. De variantie in een t -verdeling wordt geschat op basis van het aantal vrijheidsgraden van de dataset (totaal aantal waarnemingen min 1). De t -verdeling is een variant op de, maar deze wordt gebruikt voor kleinere steekproeven, waarbij de onbekend is. Statistische power ( statistical power ) verwijst naar de waarschijnlijkheid dat een hypothesetoets een echt effect vaststelt als dat effect er is. Dit noem je ook wel het onderscheidend vermogen, Een toets met veel statistische power is beter in staat een Type II-fout ( false negative ) te voorkomen. Als je onderzoek onvoldoende power heeft, kan het voorkomen dat je geen resultaat vindt, zelfs als dit wel aanwezig is en praktische relevantie heeft. Hierdoor zou je ten onrechte de behouden. Er zijn tientallen maten voor de, De maten die het vaakst gebruikt worden zijn Cohen’s d en, Cohen’s d meet de grootte van een verschil tussen twee groepen, terwijl Pearson’s r de sterkte van een relatie tussen twee meet. Je kunt ze berekenen met behulp van statistische software (zoals ) of op basis van de, laat zien dat een effect, verschil of relatie bestaat in een onderzoek, terwijl (relevantie) laat zien dat het effect groot genoeg is om betekenisvol te zijn in de echte wereld. De statistische significantie wordt gerapporteerd met behulp van, terwijl de praktische relevantie wordt uitgedrukt met de, De laat zien hoe betekenisvol de relatie tussen of het verschil tussen groepen is. Het zegt iets over de (ook wel praktische significantie genoemd) van een onderzoeksresultaat. Een klein effect heeft weinig praktische implicaties, terwijl een groot effect juist veel praktische implicaties kan hebben. Het (alfa, α) geeft de maximale kans weer dat je de ten onrechte verwerpt (een Type I-fout). Je kiest het significantieniveau zelf voordat je een statistische toets uitvoert. Meestal kies je voor een α van 0.05 (5%) of 0.01 (1%). Praktische significantie (ook wel praktische relevantie genoemd) laat zien of de onderzoeksuitkomst belangrijk genoeg is om betekenisvol te zijn in de echte wereld. Voor deze vorm van significantie rapporteer je de effectgrootte van het onderzoek. De effectgrootte wordt gerapporteerd als aanvulling op de, Klinische significantie (ook wel klinische relevantie genoemd) is relevant voor interventie- en behandelingsstudies. Een behandeling wordt als klinisch significant beschouwd als deze het leven van patiënten tastbaar of substantieel verbetert. De klinische significantie vormt een aanvulling op, Nee, de zegt niets over de alternatieve hypothese. De p -waarde geeft aan hoe waarschijnlijk het is dat de data die je hebt gevonden zouden voorkomen als de waar zou zijn. Als de p -waarde onder je grenswaarde (vaak p < 0.05) valt, kun je de nulhypothese verwerpen, maar dit betekent niet per se dat je alternatieve hypothese waar is. Je berekent meestal automatisch met het programma dat je gebruikt voor je statistische analyse (zoals of R). Je kunt de p-waarde ook schatten met behulp van tabellen voor de teststatistiek die je gebruikt. P -waarden vertellen je hoe vaak een teststatistiek waarschijnlijk zou voorkomen onder de, op basis van de positie van de teststatistiek in de nulverdeling. Als de teststatistiek ver verwijderd is van het van de nulverdeling, dan is de p -waarde klein. Dit laat zien dat het niet waarschijnlijk is dat de teststatistiek zou voorkomen als de nulhypothese waar is. De of standaardafwijking wordt afgeleid van de en vertelt je hoe ver iedere waarde gemiddeld genomen van het gemiddelde verwijderd is. Het is de vierkantswortel van de variantie. Beide maten zeggen iets over de in een verdeling, maar de eenheden verschillen:
- De standaarddeviatie wordt uitgedrukt in dezelfde eenheid als de oorspronkelijke waarden (bijvoorbeeld meters).
- De variantie wordt uitgedrukt in veel grotere eenheden (bijvoorbeeld vierkante meters).
Statistische toetsen, zoals een variantieanalyse (ook wel Analysis of Variance of genoemd), gebruiken steekproefvariantie om groepsverschillen te beoordelen. Ze gebruiken de van de om te beoordelen of de waaruit ze afkomstig zijn van elkaar verschillen.
- Is een gestandaardiseerde maat voor de samenhang tussen variabelen, terwijl chi-kwadraat geen gestandaardiseerde maat is.
- Met de kun je enkel beoordelen of het verschil tussen twee of meerdere verdelingen van elkaar verschillen.
- Door de waarde voor chi-kwadraat om te zetten in Cramer’s V, kun je waarden met elkaar vergelijken.
Je kunt met behulp van de volgende vuistregels:
Waarde Cramer’s V | Sterkte samenhang |
---|---|
Geen samenhang | |
0.1 | Zwakke samenhang |
0.3 | Gemiddelde (matige) samenhang |
0.5 | Sterke samenhang |
1 | Perfecte samenhang |
In de praktijk komt de waarde 0 of 1 eigenlijk nooit voor. is een maat voor de effectgrootte die informatie geeft over de statistische samenhang tussen twee of meer van, De waarde ligt tussen 0 en 1 en geeft aan hoe sterk twee categorische variabelen samenhangen.
- De is de beste voor scheve verdelingen of datasets met uitbijters (ook wel uitschieters of genoemd).
- De maat is gebaseerd op waarden uit de middelste helft van de dataset, waardoor het onwaarschijnlijk is dat de interkwartielafstand wordt beïnvloed door extreme waarden.
- Het geeft je de spreiding van de gehele dataset, terwijl de je de spreiding van de middelste helft van de dataset geeft.
zeggen iets over het punt waar de meeste waarden geclusterd zijn (het midden of het centrum van je dataset). Spreidingsmaten geven informatie over de afstand tussen datapunten (hoe verspreid zijn de data). Datasets kunnen dezelfde centrale tendens hebben en een verschillende mate van spreiding (of andersom).
- ( range ): het verschil tussen de hoogste en laagste waarde uit de dataset.
- Interkwartielafstand ( interquartile range ): het bereik van het middelste deel van de dataset.
- (standard deviation ): de gemiddelde afstand tussen iedere waarde in de dataset en het gemiddelde.
- Variantie ( variance ) : de standaarddeviatie in het kwadraat.
Nee, het kan alleen 0 of een positieve waarde zijn, omdat je deze spreidingsmaat berekent door de laagste waarde van de hoogste waarde af te trekken. Het (ook wel spreidingsbreedte of range genoemd) is het interval tussen de laagste en de hoogste waarde in de dataset.
Het is een veelgebruikte maat voor de spreiding ( variability ). Homoscedasticiteit houdt in dat de variantie van een variabele gelijk is voor meerdere groepen of dat de variantie van de foutterm gelijk is. Bij het uitvoeren van een of, analyseer je de variantie tussen de meerdere groepen. Dit kan getoetst kan worden met,
Bij moet de variantie van de foutterm gelijk zijn voor alle waarden van de verklarende variabele. Er mag dus niet meer of minder spreiding in de foutterm zijn voor grotere of lagere waarden van de verklarende variabele. Als er een sterk lineair verband is tussen verklarende variabelen, spreek je van multicollineariteit,
- Multicollineariteit kan ertoe leiden dat de regressiecoëfficiënten in je slechter worden geschat.
- De verklarende variabelen voorspellen elkaar dan en daardoor wordt er geen extra variantie verklaard in het regressiemodel.
- Voorbeeld: Je voegt zowel lengte in centimeters als lengte in inches toe als verklarende variabelen aan je regressievergelijking.
Deze twee variabelen voorspellen elkaar, aangezien lengte in centimeters 2,54 maal de lengte in inches is, en zijn dus perfect lineair gecorreleerd. Er kunnen dan geen twee regressiecoëfficiënten worden berekend. Bij het uitvoeren van een is het belangrijk dat het verband tussen de verklarende variabele en de lineair is.
- Dit betekent dat voor zowel lage als hoge waarden van de verklarende variabele de invloed gelijk is.
- Voorbeeld: De verklarende variabele lengte beïnvloedt de afhankelijke variabele gewicht,
- Een lineair verband betekent dat het gewicht net zoveel toeneemt als iemand van 150 cm naar 160 cm lengte groeit als van 180 cm naar 190 cm.
In het Nederlands gebruik je komma’s als decimaalteken, terwijl je in het Engels een punt gebruikt.
- Nederlands: De appels kosten maar €5,12.
- Engels: The apples only cost €5.12.
Voor duizendtallen gebruik je in het Nederlands punten, terwijl je in het Engels een komma gebruikt.
- Nederlands: De koptelefoon kost €1.600.
- Engels: The headphones cost €1,600.
Als je, is het wel gebruikelijk om ook in het Nederlands een punt als decimaalteken te gebruiken. Dit is zeker het geval als je de gebruikt. Als je vergelijkingen wilt, moet je op de volgende punten letten:
- Gebruik spaties, dus a + b = c in plaats van a + b = c
- Sluit vergelijkingen af met een punt
- Cursiveer de variabelen (in dit geval a, b en c )
- Gebruik om de volgorde van bewerkingen aan te geven, bijvoorbeeld: (a / b) + c in plaats van a / b + c
Vergelijkingen mogen in de tekst worden geplaatst, maar gecentreerd op een aparte regel heeft de voorkeur. Nummer deze vergelijkingen, zodat je ernaar kunt verwijzen. Dit nummer is altijd rechts uitgelijnd. Om te berekenen met klik je in de menubalk op:
- Analyze
- Scale
- Reliability Analysis
Vervolgens selecteer je de vragen waarvan je de interne consistentie wilt meten. Zorg er daarna voor dat “Alpha” geselecteerd is. Klik vervolgens op “Statistics” en vink “Scale if item deleted” aan. Alles staat nu goed: klik nu op “Continue” en “ok” om de analyse uit te voeren. Hierbij staat s 2 ( X i ) voor de steekproefvariantie van vraag i, en s 2 ( Y ) voor de steekproefvariantie van de totale score. Je rapporteert meestal in de om aan te tonen dat je gebruikte vragenlijst betrouwbaar is. Je vermeldt het aantal items in je vragenlijst en de bijbehorende Cronbach’s alpha. Dit kun je op de volgende manier doen:
- De klanttevredenheidsschaal is betrouwbaar, Cronbach’s alpha voor de drie items is,850.
- De schaal voor klanttevredenheid is betrouwbaar (3 items; ⍺ =,850).
Bekijk ook ons artikel over APA-stijl richtlijnen voor het, Als je niet is, kun je kijken of je de data kunt transformeren. Het kan namelijk zijn dat een variabele zelf niet normaal verdeeld is, maar het logaritme of het kwadraat wel. Als ook dit niet het geval is, kun je niet-parametrische toetsen gebruiken, zoals de Wilcoxon- of Mann-Whitney-toets, in plaats van de,
Veel statistische toetsen, zoals een t-toets of ANOVA, kunnen alleen geldige resultaten opleveren als sprake is van een, Als je data scheef verdeeld zijn, kan het voorkomen dat je resultaten niet valide zijn. De aanname van een normale verdeling is vooral belangrijk bij steekproeven kleiner dan 30 observaties.
Als je steekproef meer dan 30 observaties bevat, dan kun je volgens de centrale limietstelling ( central limit theorem ) aannemen dat aan de aanname van normaliteit wordt voldaan. De ( standard deviation of s ) is de gemiddelde hoeveelheid variabiliteit in je dataset.
Deze maat vertelt je hoe ver iedere score gemiddeld van het gemiddelde verwijderd is. Des te groter de standaarddeviatie, des te meer variabel je dataset is. Een is een uitbreiding van de enkelvoudige regressie waarbij twee of meer verklarende variabelen worden gebruikt om de ( Y ) te voorspellen of verklaren.
Voorbeeld: Je wilt naast lengte ook geslacht gebruiken om iemands gewicht te voorspellen. In dit geval voeg je geslacht als tweede variabele X 2 toe. De regressievergelijking ziet er als volgt uit: Υ = α + β 1 X 1 + β 2 X 2 + u
- Je gebruikt een enkelvoudige regressieanalyse als je het effect van één op een wilt testen.
- Voorbeeld: Je wilt aan de hand van lengte (verklarende variabele X ) iemands gewicht (afhankelijke variabele Y ) voorspellen of verklaren.
- Een enkelvoudige regressie kan worden uitgedrukt met de volgende vergelijking:
- Y = α + βX + u
worden gebruikt om het effect te bepalen van een (of meerdere) verklarende variabele(n), zoals lengte of leeftijd, op een zoals gewicht. Je kunt regressieanalyse gebruiken om:
- Samenhang tussen twee variabelen te bepalen (leeftijd en waarde van een auto)
- Verandering van de afhankelijke variabele te voorspellen (waarde van een auto naarmate deze ouder wordt)
- Toekomstige waarde te voorspellen (waarde van een zes jaar oude auto)
Je gebruikt een als je dezelfde groep respondenten meerdere malen onderzoekt () Voorbeeld: Je meet de gemiddelde lengte van respondenten in 2008, 2013, en 2018. Je vergelijkt dan de gemiddelde lengte van dezelfde persoon over een bepaalde periode om te kijken of deze verandert.
Je gebruikt een (ook wel MANOVA) als je meerdere gebruikt. Je kunt deze ANOVA zowel gebruiken met één als meerdere groepsvariabelen (onafhankelijke variabelen). Voorbeeld: Je wilt niet alleen niet alleen de gemiddelde lengte, maar ook het gemiddelde gewicht van verschillende groepen sporters vergelijken.
Je kunt beter een MANOVA uitvoeren dan meerdere losse ANOVA’s, om het risico op een Type I-fout te voorkomen. Je gebruikt een (ook wel factorial ANOVA) als je twee of meer groepsvariabelen (onafhankelijke variabelen) in je hebt. Voorbeeld: Je vergelijkt de gemiddelde lengte van verschillende typen sporters én hun gender.
Er wordt dan niet alleen getest of het gemiddelde verschilt voor volleyballers en turners en voetballers, maar ook voor mannen, vrouwen en mensen met een ander gender, én of er eventuele interactie-effecten zijn. Je gebruikt een wanneer één groepsvariabele (onafhankelijke variabele) de groepen bepaalt en er maar één is.
Voorbeeld: Je vergelijkt de gemiddelde lengte van verschillende typen sporters, zoals voetballers, turners en volleyballers. Het type sport dat iemand beoefent, is in dit geval de enige groepsvariabele en lengte is de enige afhankelijke variabele. staat voor Analysis of Variance, oftewel variantieanalyse, en wordt gebruikt om gemiddelden van meer dan twee groepen met elkaar te vergelijken.
- Het is een uitbreiding van de, die het gemiddelde van maximaal twee groepen met elkaar vergelijkt.
- Je gebruikt een ( paired samples t-test ) om twee gemiddelden van gepaarde met elkaar te vergelijken.
- Gepaarde steekproeven zijn afhankelijk van elkaar.
- Voorbeeld: Paired samples t-test Je meet de lengte van dezelfde personen in 2015 en 2018.
Deze waarden zijn afhankelijk van elkaar (omdat je dezelfde persoon meet), en daarom gebruik je een paired samples t-test. De (ook wel independent samples t-test of ongepaarde t-test genoemd) gebruik je om te onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.
- Voorbeeld: Independent samples t-test Je wilt weten of de gemiddelde sprintsnelheid van kinderen uit groep 7 afwijkt van die van kinderen uit groep 8.
- Je gebruikt de om te analyseren of het gemiddelde van een significant verschilt van een bepaalde waarde.
- Voorbeeld: One sample t-test Je wilt controleren of chocoladerepen daadwerkelijk gemiddeld 300 gram wegen, zoals op de verpakking wordt vermeld.
Om dit te onderzoeken weeg je 40 repen en vergelijk je het echte gewicht met wat het zou moeten zijn (300 gram). Hiervoor gebruik je de one sample t-test. Er zijn verschillende, namelijk de:
- One sample t-test : om te analyseren of het gemiddelde van een significant afwijkt van een bepaalde waarde.
- Onafhankelijke t-test ( independent samples t-test ): om te onderzoeken of twee steekproefgemiddelden significant van elkaar verschillen.
- Gepaarde t-test ( paired samples t-test ): om te onderzoeken of twee gemiddelden van gepaarde steekproeven van elkaar verschillen.
De, ook wel t-toets genoemd, wordt gebruikt om de gemiddelden van maximaal twee groepen met elkaar te vergelijken. Je kunt de t-test bijvoorbeeld gebruiken om te analyseren of moedertaalsprekers gemiddeld sneller spreken dan niet-moedertaalsprekers. Als je meer dan twee groepen wilt vergelijken, moet je een andere toets gebruiken, zoals de,
- Je data te visualiseren
- Je data samen te vatten met
- Hypothesen te toetsen met inferentiële statistiek
- De verdeling van je data te controleren ( of scheef verdeeld)
- te berekenen
- Andere statistische analyses uit te voeren
staat oorspronkelijk voor Statistical Package for the Social Sciences. Het is een statistisch computerprogramma ontwikkeld voor de sociale wetenschappen, maar wordt tegenwoordig ook veel gebruikt binnen andere sectoren zoals de economische wetenschappen.
- geen enkele modus: alle waarden zijn anders
- unimodaal: één modus
- bimodaal: twee modi
- trimodaal: drie modi
- multimodaal: vier of meer modi
Je kunt de bepalen met behulp van de volgende stappen:
- Als je data numeriek van aard zijn, rangschik je de waarden van laag naar hoog. Als je data categorisch zijn, verdeel je de waarden over de juiste categorieën.
- Zoek de waarde of waarden die het vaakst voorkomen.
Om de te vinden, zet je de waarden in je dataset van laag naar hoog. Vervolgens bepaal je de middelste positie op basis van n (het aantal waarden in je dataset).
- Als n een oneven getal is, vind je de mediaan op positie,
- Als n een even getal is, is de mediaan het van de waarden op posities en,
De is de meest informatieve voor scheve verdelingen of verdelingen met uitbijters. De mediaan wordt bijvoorbeeld vaak gebruikt als centrummaat voor de variabele “inkomen”, die over het algemeen niet is. Aangezien je voor de mediaan slechts één of twee waarden in het midden gebruikt, wordt deze maat niet beïnvloed door extreme uitbijters of niet-symmetrische verdelingen.
- Bereken de som door alle waarden bij elkaar op te tellen.
- Deel de som door het aantal waarden in de dataset.
Deze methode werkt zowel voor, Ook maakt het niet uit of je te maken hebt met positieve (+2) of negatieve waarden (-2). (measures of central tendency) helpen je het centrum of midden van een dataset te vinden. De drie meest gebruikte centrummaten zijn het gemiddelde, de mediaan en de modus.
- De is de waarde die het vaakst voorkomt
- De is de middelste waarde als je de dataset van kleinste naar grootste waarde rangschikt.
- Het is de som van alle waarden, gedeeld door het totale aantal waarden.
- Univariate statistieken vatten één per keer samen.
- Bivariate statistieken vergelijken twee variabelen,
- Multivariate statistieken vergelijken drie of meer variabelen,
De drie belangrijkste hebben betrekking op de frequentieverdeling, centrale tendens en variabiliteit van de dataset.
- Verdeling ( distribution ) verwijst naar de frequentie waarmee bepaalde antwoorden voorkomen.
- Centrummaten ( measures of central tendency ) geven je het gemiddelde voor iedere vraag.
- Spreidingsmaten ( measures of variability ) laten je de mate van spreiding in de dataset zien.
Statistische significantie is een term die door onderzoekers wordt gebruikt om aan te geven dat het onwaarschijnlijk is dat hun resultaten op toeval gebaseerd zijn. Significantie wordt meestal aangeduid met een p -waarde (overschrijdingskans). Statistische significantie is enigszins willekeurig, omdat je zelf de drempelwaarde (alfa) kiest. De meest voorkomende drempel is p < 0.05, wat betekent dat de kans 5% is dat de resultaten worden gevonden terwijl de waar is. Een andere drempel die vaak wordt gekozen is p < 0.01. Als de p -waarde lager is dan de gekozen alfa-waarde, mag je stellen dat het resultaat van de toets statistisch significant is. Met (ook wel descriptieve statistiek genoemd) vat je de kenmerken van een dataset samen. Met toetsende statistiek (ook wel inferentiële of verklarende statistiek genoemd) toets je een of bepaal je of je data zijn naar een bredere populatie. is de meest belangrijke methode om onderzoeksgegevens te analyseren. Hierbij wordt gebruikgemaakt van kansen en modellen om voorspellingen over een te toetsen op basis van steekproefdata. Hoewel – en beide kunnen worden gecategoriseerd, gerangschikt en gelijke afstanden hebben tussen aangrenzende waarden (gelijke intervallen), hebben alleen ratiodata een absoluut of betekenisvol nulpunt. De temperatuur in Celsius of Fahrenheit is een voorbeeld van een intervalschaal, omdat nul niet de laagst mogelijke temperatuur is. Je kunt namelijk ook nog te maken hebben met min-temperaturen. Een Kelvin-temperatuurschaal is een voorbeeld van een ratioschaal, omdat nul het absolute nulpunt is. Er zijn geen min-temperaturen. Het nominale verschilt van het ordinale meetniveau, omdat nominale data alleen gecategoriseerd kunnen worden, maar ordinale data ook gerangschikt kunnen worden. Een voorbeeld van een is "Kledingwinkels". Je kunt de data bijvoorbeeld verdelen over Zara, H&M, Only en Primark, maar je kunt die kledingwinkels niet op een natuurlijke, logische manier rangschikken. Een voorbeeld van een is "Leeftijd". Je kunt de data bijvoorbeeld verdelen over 0-18, 19-34, 35-49 en 50+, en deze categorieën kun je in een logische volgorde zetten. kunnen worden verdeeld over categorieën (waarbij ieder datapunt maar in één categorie hoort) en de categorieën kunnen niet worden gerangschikt op een logische of natuurlijke manier. Een voorbeeld van een nominale variabele is "vervoersmiddel". Deze zou bijvoorbeeld uit de categorieën fiets, auto, bus, trein, metro en tram kunnen bestaan. Die vervoersmiddelen kunnen niet op een logische manier worden geordend, want het maakt bijvoorbeeld niet uit of je start met de fiets of de auto. In het geval van een, zoals "opleidingsniveau" zou je de opleidingsniveaus vmbo, havo, vwo wel op een logische manier kunnen rangschikken. Het nominale meetniveau is het minst complexe en minst precieze, hebben twee eigenschappen:
- De data kunnen worden verdeeld over verschillende categorieën van de variabele.
- De categorieën kunnen op een logische, natuurlijke manier worden gerangschikt.
Het ordinale meetniveau verschilt van het intervalmeetniveau, omdat de afstand tussen twee categorieën niet gelijk is of onbekend is. Stel je hebt de categorieën beginner, gevorderde en expert. Het is niet mogelijk om aan te geven of een beginner net zoveel verschilt van een gevorderde als een gevorderde van een expert. : Hoe bereken je de standaarddeviatie?
Hoeveel standaarddeviatie is afwijkend?
Interpreteren van de standaarddeviatie – Als er helemaal geen variatie in de getallenreeks is dan is de uitkomst 0 (nul). Alle getallen komen dan overeen met het gemiddelde. Verder kan de standaarddeviatie in theorie oplopen tot plus oneindig. In de praktijk is de grootte van de standaarddeviatie afhankelijk van de range (het laagste minus het hoogste getal).
Hoe groot is een standaarddeviatie?
Een standaarddeviatie tussen 0,5 en 1 geeft aan dat er verschillende opvattingen zijn, een standaarddeviatie boven de 1 geeft aan dat er extreme verschillen zijn.
Waarom in standard deviatie n 1?
Steekproefvariantie – Als je data verzamelt voor een steekproef, wordt de steekproefvariantie gebruikt om de populatievariantie te schatten of inferenties te maken. De formule voor de steekproefvariantie ziet er als volgt uit:
Formule | Uitleg |
---|---|
= steekproefvariantie = som van Χ = iedere waarde = steekproefgemiddelde n = aantal waarden |
Bij steekproeven gebruiken we n – 1 in de formule, omdat het gebruik van n een vertekende schatting zou geven, waarbij de spreiding wordt onderschat. De steekproefvariantie is normaal gesproken lager dan de werkelijke populatievariantie. Het verkleinen van de steekproef n tot n – 1 zorgt voor een grotere variantie, waardoor je een niet-vertekende ( unbiased ) schatting van de spreiding krijgt.
Het is beter om de spreiding in steekproeven te overschatten dan te onderschatten. Let op Bij de formules voor de standaarddeviatie zorgt het gebruik van n – 1 er niet voor dat de bias verdwijnt. De standaarddeviatie bereken je door de wortel van de variantie te berekenen, maar dit is geen lineaire transformatie (zoals optellen of aftrekken).
Daarom kan de schatting van de steekproef-standaarddeviatie nog steeds vertekend zijn.
Hoe bereken je de variantie in Excel?
Opmerkingen –
Met VAR wordt ervan uitgegaan dat de argumenten een steekproef van de populatie vormen. Als uw gegevens de gehele populatie omvatten, moet u de variantie berekenen met de functie VARP. Argumenten zijn getallen of namen, matrices, of verwijzingen die getallen bevatten. Logische waarden en getallen in de vorm van tekst die u rechtstreeks in de lijst met argumenten typt, worden in de berekening opgenomen. Als een matrix of verwijzing als argument is opgegeven, worden alleen de getallen in die matrix of verwijzing gebruikt. Lege cellen, logische waarden, tekst of foutwaarden in de matrix of de verwijzing, worden genegeerd. Foutwaarden of tekst die niet in een getal kan worden omgezet, geven een foutwaarde als resultaat. Gebruik de functie VARA als u logische waarden en getallen in de vorm van tekst in een verwijzing wilt gebruiken in de berekening. De vergelijking voor VAR luidt als volgt waarbij x het steekproefgemiddelde GEMIDDELDE(getal1,getal2,) en n de grootte van de steekproef is.
Hoe bereken je de Standard Error?
Hoe bereken ik de standard error van een standaarddeviatie? – De standard error van de schatting van een standaarddeviatie kan berekend worden als: s / wortel(2*(n-1)) ~ 0.71* standard error of the mean, waarbij s de sample standaarddeviatie en n het aantal waarnemingen. Zie ook deze tutorial,
Hoe bereken je de variatie?
Het kwadraat van de gemiddelde afstand van het geheel van afzonderlijke waarnemingen ten opzichte van het populatie- of steekproefgemiddelde. Variantie wordt als volgt genoteerd: De variantie voor een populatie wordt genoteerd als sigma kwadraat: σ 2. De variantie voor een steekproef wordt genoteerd als S kwadraat: S 2.
Waarom Kwadrateren bij standaarddeviatie?
Waarom kwadrateert men om de standaardafwijking te berekenen?
- Beste Patrick,
- Om een idee te hebben van de spreiding van een bepaalde dataset, heb je verschillende mogelijkheden voor spreidingsmaten. Ik denk aan
- De variatiebreedte (=grootste-kleinste)
- De interkwartierafstand (IQR – interquartile range= verschil tussen het derde kwartiel en het eerste kwartiel)
- De gemiddelde absolute afwijking (MAD – mean absolute deviation)
- De variantie
- De standaardafwijking (=wortel van de variantie)
Elk van deze spreidingsmaten heeft zijn voor en zijn nadelen. De keuze van de soort spreidingsmaat is dus voor een groot gedeelte afhankelijk van het probleem. Laten we de gelijkenissen en verschillen tussen de MAD en de standaardafwijking eens onder de loep nemen (sommige stukken zijn al technischer dan anderen):
- Beide spreidingsmaten zijn “gemiddelden” voor de (absolute) afwijking. De MAD noemt men het rekenkundig gemiddelde, de standaardafwijking het kwadratisch gemiddelde. Een “gemiddelde” heeft de eigenschap dat het kleiner of gelijk aan de grootste waarde is. Met andere woorden, zowel de MAD als de standaardafwijking zijn steeds kleiner of gelijk aan de maximale afwijking van het gemiddelde. Beide kan je dus visualiseren in een histogram, iets wat je met de variantie bijvoorbeeld niet kan.
- Omdat de standaardafwijking met de kwadraten werkt, zullen de grootste afwijkingen nog eens uitvergroot worden in de gehele berekening. De standaardafwijking houdt dus meer rekening met de uitschieters in je dataset. Meestal wordt dit als een voordeel ervaren. Voor sommige data-analyse echter kan dit ook een nadeel zijn aangezien men juist weinig rekening wil houden de uitschieters (omdat men bijvoorbeeld vermoedt dat die van typfouten afkomstig zijn). Dan is de MAD een betere spreidingsmaat om te gebruiken. We noemen de MAD daarom een robustere spreidingsmaat dan de standaardafwijking.
- Noemen we de dataset x 1,,, x n met rekenkundig gemiddelde m, en we kijken naar de functie 1/n Σ (x i -x) 2 dan is m de unieke waarde voor x die deze functie minimaliseert. Ook als we kijken naar de functie 1/n Σ |x i -x| is m een waarde die deze functie minimaliseert, maar is deze niet meer uniek indien je een even aantal punten in je dataset hebt.
- Voor het manipuleren van formules werken kwadraten veel makkelijker mee dan absolute waarden.
De voor mij belangrijkste reden waarom de standaardafwijking (misschien nog eerder de variantie) te opteren is boven de MAD volgt ook uit dit vierde punt: De meeste datasets (vanaf een zekere grootte) volgen ongeveer een normale verdeling (dit is een gevolg van de centrale limietstelling). Het voorschrift van deze curve is makkelijk uit te drukken door het gemiddelde en de standaardafwijking. Dit zou met de MAD veel lastiger zijn om te doen. Men kan een normale verdeling ook makkelijk omzetten naar een standaardnormale verdeling (gemiddelde 0, standaardafwijking 1) om zo de zogenaamde z-scores te bepalen.
Ook hier speelt de standaardafwijking een cruciale rol. De meeste wiskundigen zullen trouwens eerder met de variantie werken dan met de standaardafwijking. Op zich is het ene enkel het kwadraat van het andere, maar het is veel handiger om mee te werken. Nog voordeel van de variantie ten opzichte van de MAD: indien men twee normaalverdeelde variabelen -verdeeld volgens N(μ 1,σ 1 2 ) respectievelijk N(μ 2,σ 2 2 )- optelt, dan krijgt men een normaalverdeelde variabele van de vorm N(μ 1 +μ 2, σ 1 2 +σ 2 2 ).
Er zou nog veel meer hierover gezegd kunnen worden, maar ik hoop dat dit al een eerste indruk geeft van het waarom dat de standaardafwijking boven de MAD wordt geprefereerd. Er zijn nog geen reacties op deze vraag. Enkel de vraagsteller en de wetenschapper kunnen reageren op een antwoord.
Hoeveel decimalen bij standaarddeviatie?
Juiste aantal decimalen – Wanneer de lengte van respondenten is gemeten in centimeters (bijvoorbeeld 182 cm), dan is het gebruikelijk om één decimaal te gebruiken voor het gemiddelde of de standaarddeviatie hiervan. Dus: M = 176.2; SD = 13.5.
Hoe bereken je de variantie in Excel?
Opmerkingen –
Met VAR wordt ervan uitgegaan dat de argumenten een steekproef van de populatie vormen. Als uw gegevens de gehele populatie omvatten, moet u de variantie berekenen met de functie VARP. Argumenten zijn getallen of namen, matrices, of verwijzingen die getallen bevatten. Logische waarden en getallen in de vorm van tekst die u rechtstreeks in de lijst met argumenten typt, worden in de berekening opgenomen. Als een matrix of verwijzing als argument is opgegeven, worden alleen de getallen in die matrix of verwijzing gebruikt. Lege cellen, logische waarden, tekst of foutwaarden in de matrix of de verwijzing, worden genegeerd. Foutwaarden of tekst die niet in een getal kan worden omgezet, geven een foutwaarde als resultaat. Gebruik de functie VARA als u logische waarden en getallen in de vorm van tekst in een verwijzing wilt gebruiken in de berekening. De vergelijking voor VAR luidt als volgt waarbij x het steekproefgemiddelde GEMIDDELDE(getal1,getal2,) en n de grootte van de steekproef is.
Wat houdt de Z score in?
Uitleg Statistiek: Z-Scores Als eerste kan je aan het teken (positief of negatief) meteen zien wie er van de steekproef boven en wie onder het gemiddelde zitten. Ook is het mogelijk om scores op verschillende variabelen met elkaar te vergelijken, omdat de meeteenheid van een variabele er op deze manier niet meer toe doet.
Je kan Z-scores van verschillende variabelen dus vergelijken met elkaar en dan direct zien op welke je het hoogst scoort. Maar daarnaast wordt de Z-verdeling ook wel de normale verdeling genoemd. Z-scores kun je namelijk makkelijk vertalen in oppervlaktes onder de normaal curve, en dus omzetten in kansen of percentages.
Er is namelijk een vuistregel (de empirische regel) die zegt dat 68% van de personen tussen een Z-score van -1 en 1 zit, dat 95% van de personen een Z-score tussen -2 en 2 heeft, en 99,7% binnen 3 standaarddeviaties ten opzichte van het gemiddelde zit.
Hoe groot is een standaarddeviatie?
Een standaarddeviatie tussen 0,5 en 1 geeft aan dat er verschillende opvattingen zijn, een standaarddeviatie boven de 1 geeft aan dat er extreme verschillen zijn.