Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

. så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 ... dvs.. + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n.1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 . så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + ... så P ( A) = P( x1 ) + P( x2 ) + . hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 . A ∩ B = Ø . xn . B2 ... Bn udgør en klassedeling af udfaldsrummet. . + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte. Sandsynlighedsregning og stokastiske variable 2. k) I Excel: = COMBIN(n. x2 .2. . så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige.. k) 5 .

Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X . man finder i tabellerne. som angiver et antal. temperatur) er som regel kontinuerte stokstiske variable. hvor k er en konstant 6 . Generelle målinger (størrelse. Y ) Var (kX ) = k 2Var ( X ) . er altid diskrete.2 Diskrete stokastiske variable Stokastiske variable. vægt. så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel. hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . eller som kun kan antage adskilte værdier.2. Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY . For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder.

n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k.2.. 19 20 P(X≤k) #VALUE! #VALUE! .. n... Bemærk.. 7 . at hvis der står #NUM! i nogle af cellerne efter beregningerne. karakteriseret ved: et basiseksperiment. x = 0. TRUE) P( X = k ) =BINOMDIST( k. TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . p) ⎛n⎞ n! p k (1 − p) n − k . 1. og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer. hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange. #VALUE! #VALUE! P(X≥k) 1... 2.1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer. p. p. nemlig at k>n.. n. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor.. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter. . disse rækker. hvis n > 20 . så skyldes det ugyldige værdier. X ≈ bin(n. X er altså binomial-fordelt. Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .2... p. Slet evt. uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer.0000 #VALUE! . Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. n. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1.

. så skyldes det ugyldige værdier.. N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel. Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! ..0000 #VALUE! .2. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. hvis n > 20 .. .2. k.. disse rækker. 1. 8 . M. X er altså hypergeometrisk-fordelt. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. x = 0. 2. men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes.. X ≈ hyp( N . M . #VALUE! #VALUE! P(X≥k) 1. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N. M og p i de violette felter... Bemærk. 19 20 P(X≤k) #VALUE! #VALUE! . n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ . Slet evt. at hvis der står #NUM! i nogle af cellerne efter beregningerne. n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x.2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. nemlig at k>n...

. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde.2. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1.... så er Y ≈ Po(60 ⋅ λ ) ... λ . at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. X angiver antal hændelser i et minut. TRUE) P( X = k ) =POISSON( k. og X ≈ Po(λ ) . TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . . at hvis fx. 2. er uafhængige. som ikke overlapper hinanden.0000 #VALUE! . #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt..2. e − λ λk Tæthedsfunktionen er P( X = k ) = . 20 P(X≤k) #VALUE! #VALUE! . #VALUE! P(X=k) #VALUE! #VALUE! .. X ≈ Po(λ ) . X angiver da antal hænder i det givne tidsrum (som gerne må være stort). og hvis Y angiver antal hændelser i en time. λ . λ . b) Det er meget usandsynligt. Bemærk. hvor parametren λ er det forventede antal hændelser i vores tidsrum. 9 .. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k.3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. #VALUE! P(X≥k) 0. k = 0. da vi kan forvente 60 gange så mange hændelser på en time som i et minut. 1..

TRUE) . TRUE) = 1. σ) . μ. at hvis X ≈ N (μ.2.. I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi. For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ . μ. μ. X 2 .NORMDIST(x. så gælder der.. X n ≈ N (μ. σ. μ..NORMDIST(a..4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel. at gennemsnittet af disse 1 X = ( X 1 + X 2 + . og vi skriver Z ≈ N (0. TRUE) = NORMDIST(b. uafhængige stokastiske variable. σ.2. σ) er n ens fordelte. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . TRUE) Flere ens fordelte. σ. man anvender i praksis og som er tabellagt. Standardnormalfordelingen har μ = 0 og σ = 1 . uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 . og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x.. σ.. n 10 .1) .

I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling. og den inverse fordeling. som f. og værdier for a og b nedenunder. 11 . Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel. Forskellige sandsynligheder beregnes nu. ErlangS.Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler.eks. Φ .

så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N . så kan vi approximere med normalfordelingen: ⎛ k + 0. p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 .2. så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 . S . Vi giver en lille oversigt: Binomialfordelingen X ≈ (n. ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 .2.5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 . så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n.1 . så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 .5 Approximationer I mange situationer kan man approximere en foreling med en anden. n) a) Hvis n / N ≤ 0.

især ved konfidensintervaller for middelværdier. og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s. 13 . at den sande værdi for den estimerede størrelse ligger i dette interval. ukendt populationsspredning x± t n −1.1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population. 1 − α .3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). CKStat's skabelon. z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n . hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed. Konfidensintervaller angives altid med et vist konfidensniveau. 3. x± b) c) Normalfordeling. Jo bredere intervallet er.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha. og som regel vælger vi at snakke om 95% konfidensintervaller.α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader. Sørg for at finde den rigtige skabelon. og et intervalestimat (eller et konfidensinterval).1. x + n ⎢ ⎦ ⎣ 3. jo mere usikre er vi på resultatet. Konfidensintervallet fortæller noget om. at vi er 95% sikre på. Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning.

2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer. Dette gøres ved testen (4. med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 . at populationerne har samme varians. n1 ≥ 30 og n2 ≥ 30 . dvs. og en stikprøve herfra med størrelsen n og spredningen s.3. hvoraf vi har udtaget to uafhængige stikprøver. hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste.2.1.5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne.1−α / 2 n 14 . Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1. og populationsspredningerne behøver ikke at være kendte.α / 2 χ n −1. c) To normalfordelinger med samme spredning.3 Konfidensinterval for varians Vi har en normalfordelt population.1. Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store.α / 2 s 1 2 . 2 2 3. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2. {xi } og { y j } .

Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s. af n ≥ 40 .α / 2 n N −1 (svarende til tilfælde 3. Det forudsættes. n1 . x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3.1.5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer. Den totale mængde i populationen er givet ved Nμ . Konfindensinterval for antal med egenskab Vi har en population med N elementer.1. hvoraf p har en vis egenskab. hvoraf x besider egenskaben. Tilsvarende formler gælder for de andre tilfælde). n2 ≥ 40 . Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3. estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1.3. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x .6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer. hvoraf en andel p besidder en vis egenskab. n 15 .4 Konfidensinterval for andel Vi har en population af størrelsen N.1. hvoraf x har egenskaben. Vi har en stikprøve på n elementer. middelværdi μ og spredning σ.1. Vi har en stikprøve på n elementer.1c.

2.2 Stratificerede stikprøver 3. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.3. 16 .1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata.

og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes. 17 .2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata.3.2.

3. Stikprøven fordeles således. at sprednngen minimeres. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne .2. kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser.3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere. fordele stikprøven ud på de enkelte strata. dvs. strata med stor spreding får et større antal end evd proportional allokering. på flere forskellige måder. Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. 18 . dvs.

nulhypotesen H 0 og alternativhypotesen H A . om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler. Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. om 'nulværdien' ligger heri.4. om alle forudsætningerne for testen faktisk gjaldt. Beregn teststørrelsen og p-værdien. 4) 5) De fleste lærebøger skelner mellem tre metoder. så bør følgende fremgangsmåde anvendes: 1) Opstil.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. mens H A er. Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese. at testen kan anvendes. hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. varians og andel bør man undersøge. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . 2) 3) Opskriv eventuelle forudsætninger for. Undersøg. og at vedlægge udskrift af relevante bregninger i Excel. og undersøg evt.og P-metoderne. sammen med en beregning af p-værdien. der fortæller mest om situationen. idet både test-størrelse og kritiske værdier beregnes og indtegnes. at H 0 ikke gælder. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. ud fra opgaveteksten. CKStat. gerne vha. eller gerne begge dele. disse. Se de relevante tests for yderligere oplysninger. Undersøg. og der bør ikke være en tredie mulighed. Husk at opskrive relevante formler. om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 . spredning. men som sagt er begge dele ikke nødvendige. 19 . Med mindre andet oplyses. Endvidere bør observationerne understøtte H A . CKStat's skabeloner anvender både KV. Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden. Ved test for middelværdi. Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser). eller ved at se på p-værdien.

og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. μ 0 .4). 20 .2.1c) i stedet. ud fra stikprøven.2 Test for middelværdi.1) eller på anden vis (4.3. som jo er et estimat for middelværdien μ .4.2. test evt.2. stor stikprøve Man kan forinden teste. Vi ønsker at sammenligne middelværdien med en fast størrelse.4) b) Spredningen (eller variansen) skal være kendt. dette vha. 4.1c : Ukendt fordeling. Vi kender stikprøvestørrelsen n. eller anvende test (4. σ/ n Forudsætninger: a) Vi skal have en normalfordeling. stikprøvens gennemsnit x . varians.1. alt efter nul.2. at efter.2. og vi kender enten den sande spredning σ for den stokastiske variabel.4. om vi har en normalfordeling. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. hvad vi ved om situationen.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter. (4.3.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel.1a : Normalfordeling med kendt varians 4. spredning og andel 4.4. enten grafisk (4.1b : Normalfordeling med ukendt varians 4. Der er i virkeligheden tale om hele tre forskellige tests. nemlig standardafvigelsen s. 4. ud fra en stikprøve. eller et estimat herfor.2.1) eller (4.

alt efter nul.4. dette vha.1. s/ n Forudsætninger: Vi skal have en normalfordeling.α / 2 − t n −1.4.α / 2 Husk.α / 2 < t < t n −1.α − t n−1.n −1 (t ) t < t n −1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.3.α / 2 < t − t n −1. n–1.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT . dvs. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 . (4.b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter. σ/ n Forudsætninger: Stikprøven skal være stor.2.α / 2 − t n −1. test evt.n −1 (− | t |) 1 − FT .2. 1) 4. stor stikprøve Selve testen: Findes i tre varianter.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.1) eller (4. n ≥ 40 .α / 2 > t eller t > t n −1. alt efter nul.n −1 (t ) t= p-værdi Accept Forkast 2 FT .α / 2 > t t > t n −1.n −1 (t ) beregnes som =TDIST(ABS( t).c Ukendt fordeling.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .1.

α / 2 χ 2 n −1.2.2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer.n-1).4. at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader. Selve testen: Findes i tre varianter. Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha.1−α / 2 < χ 2 χ 2 < χ 2 n −1.6).1−α / 2 < χ 2 < χ 2 n −1.1− α / 2 χ χ 2 > χ 2 n −1.α / 2 2 n −1.3.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1. 22 .1−α / 2 > χ 2 eller χ 2 > χ 2 n −1. alt efter nul.α / 2 kan beregnes i Excel som =CHIINV( α / 2 . (4.α / 2 Husk.α / 2 χ 2 n −1. Beregninger: χ 2 -fraktilen χ 2 n −1.

og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Dette tal er en konstant. alt efter nul. dette vha.2.4.eks. Men hvis man f. 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger. μ1 ≤ μ 2 + D .3a : Normalfordelinger med kendte varianser 4. store stikprøver Der forekommer et tal D i hypoteserne. dvs. (4. f. og man vælger som regel D = 0 for at få en direkte sammenlining. men ens varianser 4.2.2.3.a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter. om den ene middelværdi er mindst 3 større end den anden.3. at efter. D = 3.eks. 4. ud fra stikprøven. hvad vi ved om situationen.1) eller (4.3b : Normalfordeling med ukendte.4. ud fra to stikprøver. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor.3c : Ukendt fordelinger. skal teste.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel. test evt. 4. 23 . Der er i virkeligheden tale om hele tre forskellige tests. så skal vi teste for μ1 ≥ μ 2 + 3 . at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt.4) b) Spredningerne (eller varianserne) skal være kendt. stikprøvernes gennemsnit x1 og x2 x . Vi kender stikprøvestørrelserne n1 og n2 . s1 eller s2 .2.2.

n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t).4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .3. fælles varians Selve testen: Findes i tre varianter.α / 2 − t n1 + n2 − 2.b Normalfordelinger med ukendt varians. n1+n2–2.n1 + n2 − 2 (− | t |) − t n1 + n2 − 2.α / 2 t > t n1 + n2 − 2. (4.2. dette vha. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.α / 2 > t eller t > t n1 + n2 − 2.α / 2 Accept Forkast Husk. Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.n1 + n2 − 2 (t ) t < t n1 + n2 − 2.4.α / 2 > t 1 − FT .3. 1) 24 .1) eller (4. alt efter nul.α / 2 < t − t n1 + n2 − 2.α / 2 < t < t n1 + n2 − 2.4.α / 2 FT .n1 + n2 − 2 (t ) − t n1 + n2 − 2. n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT . test evt.

c Ukendte fordelinger. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt.4.2.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. alt efter nul.2.3. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne. n ≥ 40 . Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store. dvs. stor stikprøve Selve testen: Findes i tre varianter. (4.5) 25 . Varianserne skal være ens – dette kan testes vha.

1) eller (4.α / 2 < t < t n −1. Vi har gennemsnittet d heraf.α / 2 > t t > t n −1.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT . vi har to rækker af n tal.og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT .α / 2 Accept Forkast − t n −1. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer.4 Parvis sammenligning. test evt.3.α / 2 > t eller t > t n −1. Kort sagt. dette vha. forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler. Selve testen: Selve testen: Findes i tre varianter. og ønsker at undersøge middelværdien d af denne forskel. xi og yi .α − t n−1. og vil undersøge deres differenser.4.α / 2 − t n −1.2.eks. alt efter nul. 1) 26 . (4. s/ n Forudsætninger: Vi skal have en normalfordeling. hvir vi har obsrveret før og efter en given ændring (f.α / 2 < t − t n −1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. Endvidere kender vi standardspredningen s af d i 'erne.n −1 (− | t |) d < d0 d − d0 t= s/ n FT . n–1.n −1 (t ) beregnes som =TDIST(ABS( t).α / 2 Husk.4. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin).n −1 (t ) 1 − FT . d i = yi − x1 .n −1 (t ) t < t n −1.

s2 Forudsætninger: Data skal være normalfordelt – dette testes vha. (4. Selve testen: Beregningerne er lettere. n2-1) 27 .5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer.n2 −1. n1-1. om spredningerne eller varianserne er ens.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1. Beregninger: F-fraktilen Fn1 −1.n2 −1.α Husk at bytte om på de to stikprøver! Husk.2. således at stikprøve 1 har den største observerede spredning.3. hvis vi evt.α / 2 kan beregnes i Excel som =FINV( α / 2 . og vil teste.n2 − 2. Findes i tre varianter. bytter om på stikprøverne.4. alt efter nul.n2 −1.α F > Fn1 −1.6).α / 2 F < Fn1 −1.α / 2 F > Fn1 −1. s1 > s2 . n2 − 1 frihedsgrader. at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 .n2 −1.

n ≥ 40 . Vi ønsker at sammenligne med en fast andel. Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor. ˆ x Vi har altså en stikprøve på n individer. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. dvs. at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt. hvoraf x har egenskaben. p0 .2.4. Estimatet for p er da p = n .6 Test for andel Anvendelse: Vi har en population. Selve testen: Findes i hele tre varianter. Vi vil undersøge størrelsen af den andel p af populationen. det observerede antal x og den formodede andel p0 . som besidder egenskaben.og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. 28 . alt efter nul. hvori nogle af medlemmerne besidder en vis egenskab.

4. Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne.2. 29 . hvori nogle af medlemmerne besidder en vis egenskab. Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x.og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . som besidder egenskaben. Vi har altså to stikprøver på n1 og n2 individer. at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt.7 Test for forskellen mellem to andele Anvendelse: Vi har to population. alt efter nul. dvs. Vi ønsker at sammenligne disse to. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. hvoraf x1 og x2 har egenskaben. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store. n1 ≥ 40 og n2 ≥ 40 . Selve testen: Findes i hele tre varianter.

5).5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82.4.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value.91667 792 874. Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197. Beregninger: Beregingerne er komplicerede.45833 0.471117 0.4.638871)..2. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre.8 Variansanalyse Anvendelse: Vi har en række populationer. som de har samme middelværdi. som alle er normalfordelte. Forudsætninger: Alle populationerne skal være normalfordelte. som fortolkes og anvendes på vanlig vis.1)) Alle varianserne skal være ens (varianshomogenitet). hvor vi sammenligner den mindste og den største af stikprøvernes spredninger.9167 df MS F F crit P-value 2 41. (Kan kontrolleres ved test (4. én fra hver population. og som alle har same varians.638871 4. Vi har en række stikprøver. (0. 30 .2. Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = . Excels analyse-værktøj ANOVA: SIngle factor. men foretages let vha. Kan kontrolleres ves test (4.. og vi vil afgøre.

31 .

Er denne forudsætning ikke opfyldt. bør være mindst 5: Ei ≥ 5 . være om et antal observationer af en given stokastisk variabel følger en given fordeling. og dermed den tilsvarende p-værdi for lille. ikke på de tilsvarende frekvenser eller sandsynligheder.4. eller om der er uafhængighed i en kontigenstabel. så kanman slå de mindste kategorier sammen. inddelt i kategorier. at man tester og regner på de konkrete observerede (og forventede) antal. at teststørrelsen χ 2 bliver for stor. 32 . Ei .eks. om et givet statistisk materiale. indtil de forventede antal kommer op over 5. Det kan f. Fælles for alle disse tests er. bestående af optællinger af observationer. så risikerer man. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. at de forventede antal. Holder denne forudsætning ikke. En generel forudsætning i disse tests er. Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge. følger et bestemt mønster.

. Ei > 5 .... Forudsætninger Alle de forventede værdier Ei bør være mindst 5. Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0. Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i.. De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen. Resten af de relevante størrelser vil nu blive beregnet automatisk 33 .1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population. pn kendes. og det observeres.. Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling.. Vi vil gerne teste. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . p2 . Ei under nedenstående forudsætninger. som er opdelt i n kategorier. at der er Oi elementer fra kategori i.4. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes..00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'.. Denne vil. om sandsynlighederne p1 . bør erstattes af pasende og mere beskrivende kategorititler.3. p2 . 'Kat2'. være χ 2 -fordelt med n − 1 frihedsgrader. . p2 . og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. en opdeling af hændelser i n kategorier. En stikprøve udtages. pn passer med disse observerede antal. dvs. Andelene p1 .. osv. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen.. dvs.

eks.3. Der er uafhængighed i denne inddeling? (dvs. H A : Der er ikke uafhængighed i kontigenstabellen. bør erstattes af mere sigende kategori-titler.4. dvs.. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. 34 . Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader. hvor der er r kategorier i den ene inddeling og c i den anden.. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5.. Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række. observerede værdier.. "R2" . mand/kvinde og ryger/ikke-ryger). De forventede værdier Ei beregnes.og søjle-overskrifterne "R1". Ei > 5 . . "C2". Herefter erstattes "xxxxx" i skemaet med de faktiske. relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f. og "C1". hvorpå resten af størrelserne beregnes automatisk.

Normalfraktildiagram 2. der skal undersøges. hvori man skal markere de data. Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på.4 Andre tests 4.50 2. at vi tegner et normalfraktildiagram (eller et q-q-diagram).00 0.Punkterne på dette diagram repræsenterer vores datasæt.00 -0. og der må gerne være tekst eller tomme celler i området. Dette område behøver ikke være kun en søjle eller kun en række.00 -1. Ved klik på OK genereres nogle mellemregninger og selve grafen.4.50 0 -1.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie.50 -2.00 1.50 1.50 0.4. justeres til. Denne kan evt. og er der tale om en normalfordeling.00 -2. hvis man ønsker.50 zi 2 4 6 8 10 12 14 xi 35 . så ligger disse punkter tæt omkring den bedste rette linie.

5. og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.Add-Ins.) Herefter fremkommer en ny dialogboks: 36 .Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke. Lineær regression 5. Dette startes ved at vælge menupunkterne Tools. så vælg Tools.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj.

136364 0.045455 -0.13636 14.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.994082 Standard Error 0.954545 10.090909 0.04545 0. jo mere forklarer modellen.40909 22. så tag dem med.863636 -0.De afhængige variable (y-værdierne) skal angives i Input Y Range.9636 1512. som anvendes i 5.59091 Residuals 0.31818 18.409091 samt nogle grafer.86364 0. R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1.1E-10 Lower 95% -1.966939 Upper 95% 0.2.40909 0.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.863636 7.19901 1.1 Significance F 2.994739 Adjusted R Square 0.772727 5. En kort oversigt: Multiple R.227273 -0.2.19426 0.997366 R Square 0. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0.9636 403.04545 12.681818 3.715 8 2. hvor beregningerne skal fremkomme. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse. at hvis 37 .22727 -0.89364 2. Løst sagt kan man sige.05376 38.22727 16.31818 -0.266581 2.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. Det anbefales at sætte de resterene hakker som vist på figuren.342547 -1.318182 0. I Output Range skal man vælge det sted på regnearket.380823 2.40909 0. og sæt et hak i Labels.267045 9 406.

Hvis dette tal er større end f. når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0. på dansk standardfejlen for residualerne.97. dvs. så er modellen værdiløs. Igen bør disse tal helst være under 5%. Endeligt indeholder den nederste del residualerne. som især er interessante. variablen er insignifikant". Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant". så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error.2) 38 .2.eks. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter.forklaringsgraden er på 0. I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients. for at modellen er noget værd. dernæst koefficienterne for de enkelte forklarende variable (hældningerne). 5%. Først står skæringen med y-aksen (eller konstantleddet). især ved beregningen af forudsigelsesintervaller. Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable.

Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. hvis punkterne er spredt jævnt ud over grafen. Forudsætning 2 holder. Residulerne tilbyder Excel at beregne. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. at vi kan foretage en lineær regression. at punkterne er tættere på førsteaksen (dvs. so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. Forudsætning 1 testes ved at tegne et linie-plot.2 Simpel lineær regression 5. Forudsætning 1 holder. og der ikke er tendens til f.eks. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0. at punkterne klumper sig sammen og følger en kurve. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) .1) teste dette.1). hvis der ikke er tendens til. Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5.5. dvs. så vi behæver blot at konstatere. Middelværdien vil altid være 0 (dvs.4.eks. 39 . mindre residualer) for lave værdier af x. den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt). er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable. hvis pukterne fordeler sig pænt omkring en ret linie. β1 er hældningen og E er residualet. og udfra disse kan vi vha. Forudsætning3 holder. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f.2. en parabel). om punkterne fordeler sig pænt omkring den bedste rette linie i plottet. (4. men at punkterne i stedet spreder sig fra observation til observation. og denne graf kan sagtens anvendes. et plot af y-værdierne som funktion af xværdierne. Igen tilbyder Excel at gøre dette.

5.1E-10 Lower 95% -1. og i sidste kolonne er p-værdien angivet.19901 1.9636 1512. og s1 s1 er standardfejlen for denne koefficient. hvis der er en reel sammenhæng mellem de to variable.380823 2.267045 9 406. Teststørelsen er t-fordelt med n − 2 frihedsgrader. Significance F.966939 Upper 95% 0.997366 R Square 0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.40909 0.214879 40 .1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. hvis hældningen β1 ≠ 0 .3) Den simple lineære model er signifikant. Denne p-værdi er også at finde øverst i regressionen under ANOVA.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5.9636 403.715 8 2.994739 Adjusted R Square 0.994082 Standard Error 0.1 Significance F 2. Denne størrelse er beregnet for én i regresionen under t-stat. Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 .342547 -1. som man beregner i regressionen.090909 0. Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0.2.266581 2.19426 0.89364 2.136364 0. hvor b er den faktiske hældning. dvs. hvor n er antallet af datasæt i regressionen.2.05376 38.

267045 9 406.994739 Adjusted R Square 0. hvor b1 er den faktiske hældning.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. og i sidste kolonne er p-værdien angivet.19901 1.380823 2.214879 41 . Significance F.9636 403.19426 0.n − 2 (t ) z > − zα / 2 1 − FT .9636 1512.266581 2.5.342547 -1. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat. SUMMARY OUTPUT Regression Statistics Multiple R 0. men det er mere usædvanligt).40909 0.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.090909 0.136364 0.994082 Standard Error 0. om den forklarende variabel er signifikant.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.3 Test for hældningen Vil man undersøge størrelsen på hældningen.966939 Upper 95% 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT . Denne p-værdi er også at finde øverst i regressionen under ANOVA. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide. så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt. om β1 ≠ 0 .997366 R Square 0. hvor n er antallet af datasæt i regressionen.2. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT . b −c Teststørrelsen er t = 1 . Teststørelsen er t-fordelt med n − 2 frihedsgrader. som man beregner i regressionen.1E-10 Lower 95% -1.1 Significance F 2.89364 2.05376 38. dvs.715 8 2. s1 og s1 er standardfejlen for denne koefficient. teste.

9636 403.05376 38.342547 -1. H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT .715 8 2.136364 0.380823 2.2. så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0. om β0 = 0 eller ej. hvor vi undersøger.19901 1. hvor b0 er den faktiske skæring.89364 2. SUMMARY OUTPUT Regression Statistics Multiple R 0.997366 R Square 0.994082 Standard Error 0. Teststørelsen er t-fordelt med n − 2 frihedsgrader. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os.994739 Adjusted R Square 0. b −c Teststørrelsen er t = 0 . og i sidste kolonne er p-værdien angivet. hvor n er antallet af datasæt i regressionen.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.9636 1512.267045 9 406.n − 2 (t ) z > − zα / 2 1 − FT .966939 Upper 95% 0.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet).n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. s0 og s0 er standardfejlen for denne koefficient.n −2 (− | t |) − zα / 2 < z < zα / 2 FT . men det er mere usædvanligt).1 Significance F 2. at alternativhypotesen skal understøtte de observerede data! For specialtilfældet.090909 0.1E-10 Lower 95% -1. som man beregner i regressionen.214879 42 .5.40909 0. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.19426 0.266581 2.

for hvilken vi ikke har data i observationssættet.2.5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi. Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5. som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen. ud fra en given x-værdi.5. xny .α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne.2. yny .1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser. som kan aflæses i regressionen øverst som Standard Error. Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2. x-værdierne) – x ^2 43 .

Teststørrelsen for denne test er svær at beregne manuelt.3.. hvor den er 7. hvis mindst én af koefficienterne βi ikke er 0.0574 0. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.3 Multipel lineære regression 5.3.8837 Justeret Rkvadreret 0.en kan findes i Excels beregninger. sammen med den tilsvarende p-værdi. at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + . hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable.7724 Signifikans F 7. at en lav p-værdi (som nedenunder.8625 Standardfejl 18.5043 4.4672 357. + E 5. Bemærk..0038 0.2 Signifikans af den lineære model Den lineære model er signifikant.7054 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.0514 -254..1315 0.1850 0. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = .272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.4970 13 33799.0889 44 . + E hvor β0 er konstantleddet (skæringen med y-aksen) .0143 P-værdi Nedre 95% Øvre 95% 0.0328 14933. = 0 og H A : mindst én af βi 'erne er ikke 0.0020 0.0141 F 41..9400 R-kvadreret 0.6240 -0.0259 0. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + . βi er de enkelte variables koefficienter og E er residualet.272 ⋅10 −6 ) indikerer.5380 57.9278 0.5000 t-stat -2..5.5164 11 3932.1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable. dvs.9130 0.2607 0.4424 0.

0038 0. og si si er standardfejlen for denne koefficient. og i sidste kolonne er p-værdien angivet.0328 14933.5164 11 3932. dvs.5043 4.7724 Signifikans F 7.0259 0. Denne størrelse er beregnet for én i regresionen under t-stat.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.0514 -254.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant.5.1850 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.0889 0.9400 R-kvadreret 0.4424 0. som man beregner i regressionen.9130 0. Teststørelsen er t-fordelt med n − 2 frihedsgrader.2607 0.0574 0. Bemærk. hvor bi er den faktiske koefficient. hvis koefficienten βi ≠ 0 .8625 Standardfejl 18.0020 45 .5000 t-stat -2.4970 13 33799.0141 F 41.5380 57.7054 0. Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i .8837 Justeret Rkvadreret 0.6240 0. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0. at en lav p-værdi indikerer.0143 P-værdi Nedre 95% Øvre 95% 0.1315 0. hvor n er antallet af datasæt i regressionen.4672 357. hvis den har en reel indflydelse på Y.3.9278 -0.

5. så vil de begge i modellen vise sig ved at den ene er insignifikant. som bedst anvendes til at vælge mellem modeller. Hvis der er flere insignifikante variable. så er den værdiløs. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. Som regel kan der ske. og modellerer videre. at hvis to forklarende variable er korrelerede. som opfylder krav 2 og 3. 46 .3. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller. så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5.4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række.3)).3. Krav 3 skal helst være opfyldt. Krav 1 er et kvalitetsmål. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad. Krav 2 er absolut – hvis modellen ikke er signifikant.

Sign up to vote on this title
UsefulNot useful