Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

A ∩ B = Ø . B2 . . x2 . xn . Sandsynlighedsregning og stokastiske variable 2.. så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige..... dvs. så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + . + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n... så P ( A) = P( x1 ) + P( x2 ) + . + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte.2. .1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 . Bn udgør en klassedeling af udfaldsrummet. k) I Excel: = COMBIN(n.. k) 5 . hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 . så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 ..

temperatur) er som regel kontinuerte stokstiske variable.2 Diskrete stokastiske variable Stokastiske variable. så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel. eller som kun kan antage adskilte værdier. hvor k er en konstant 6 . som angiver et antal. For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder.2. hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . Generelle målinger (størrelse. vægt. Y ) Var (kX ) = k 2Var ( X ) . Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X . man finder i tabellerne. er altid diskrete. Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY .

#VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter. X ≈ bin(n.. så skyldes det ugyldige værdier. og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer. uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer. n. Bemærk. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. nemlig at k>n. karakteriseret ved: et basiseksperiment. hvis n > 20 . TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen. disse rækker.2. p) ⎛n⎞ n! p k (1 − p) n − k . hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange. x = 0. 7 .. TRUE) P( X = k ) =BINOMDIST( k. p... Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. at hvis der står #NUM! i nogle af cellerne efter beregningerne.. 19 20 P(X≤k) #VALUE! #VALUE! .2. p.. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! .. p.. 2.. X er altså binomial-fordelt. n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k. n. 1..0000 #VALUE! . n. Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer. . FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1. Slet evt.. #VALUE! #VALUE! P(X≥k) 1.

X ≈ hyp( N . 19 20 P(X≤k) #VALUE! #VALUE! . Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes. n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x... #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N. M og p i de violette felter.. N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel... at hvis der står #NUM! i nogle af cellerne efter beregningerne. n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ .2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. Bemærk.. k.. .0000 #VALUE! . Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. M . #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . Slet evt. 1.. x = 0. #VALUE! #VALUE! P(X≥k) 1.. hvis n > 20 . Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .. disse rækker. X er altså hypergeometrisk-fordelt.2. nemlig at k>n. 8 .2.. M. så skyldes det ugyldige værdier. 2.

.2. hvor parametren λ er det forventede antal hændelser i vores tidsrum. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1. TRUE) P( X = k ) =POISSON( k.. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. så er Y ≈ Po(60 ⋅ λ ) ..0000 #VALUE! . 2. TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . X angiver antal hændelser i et minut. k = 0. og hvis Y angiver antal hændelser i en time.. b) Det er meget usandsynligt. 20 P(X≤k) #VALUE! #VALUE! ...2. at hvis fx.. er uafhængige.. da vi kan forvente 60 gange så mange hændelser på en time som i et minut. #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt.3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. Bemærk. som ikke overlapper hinanden. 9 . λ . λ . #VALUE! P(X=k) #VALUE! #VALUE! . X ≈ Po(λ ) . #VALUE! P(X≥k) 0. X angiver da antal hænder i det givne tidsrum (som gerne må være stort). 1. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k. at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum. . e − λ λk Tæthedsfunktionen er P( X = k ) = . forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde. og X ≈ Po(λ ) .. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.. λ .

at gennemsnittet af disse 1 X = ( X 1 + X 2 + . μ. man anvender i praksis og som er tabellagt. TRUE) = NORMDIST(b. σ. σ. uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 . σ) . X n ≈ N (μ. σ. uafhængige stokastiske variable. TRUE) .4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel... X 2 . og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . μ. TRUE) = 1. så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . og vi skriver Z ≈ N (0.2.2. μ.. σ. μ. n 10 .NORMDIST(x. For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ .. så gælder der... σ) er n ens fordelte.NORMDIST(a.1) . at hvis X ≈ N (μ. Standardnormalfordelingen har μ = 0 og σ = 1 . I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi. TRUE) Flere ens fordelte.

11 . Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel. som f.Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler. og værdier for a og b nedenunder. Φ . og den inverse fordeling. ErlangS. I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling. Forskellige sandsynligheder beregnes nu.eks.

så kan vi approximere med normalfordelingen: ⎛ k + 0. så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n.5 Approximationer I mange situationer kan man approximere en foreling med en anden.2. n) a) Hvis n / N ≤ 0.2. S .5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 . Vi giver en lille oversigt: Binomialfordelingen X ≈ (n. så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N .5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 . ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 . så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 . p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 . så kan vi apprixomere med normalfordelingen: ⎛ k + 0.1 .

ukendt populationsspredning x± t n −1.1. Konfidensintervaller angives altid med et vist konfidensniveau.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha. Sørg for at finde den rigtige skabelon. 1 − α . x± b) c) Normalfordeling. jo mere usikre er vi på resultatet. Konfidensintervallet fortæller noget om. at vi er 95% sikre på. især ved konfidensintervaller for middelværdier. z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n .α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader.1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population. og et intervalestimat (eller et konfidensinterval). Jo bredere intervallet er. 3.3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s. 13 . CKStat's skabelon. hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed. og som regel vælger vi at snakke om 95% konfidensintervaller. at den sande værdi for den estimerede størrelse ligger i dette interval. Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning. x + n ⎢ ⎦ ⎣ 3.

2.3. Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1. hvoraf vi har udtaget to uafhængige stikprøver.α / 2 χ n −1. og en stikprøve herfra med størrelsen n og spredningen s. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne.5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader.1. 2 2 3. {xi } og { y j } . hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste. dvs. med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 . Dette gøres ved testen (4. og populationsspredningerne behøver ikke at være kendte.α / 2 s 1 2 . at populationerne har samme varians. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2.1−α / 2 n 14 . c) To normalfordelinger med samme spredning.1.2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer. Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store. n1 ≥ 30 og n2 ≥ 30 .3 Konfidensinterval for varians Vi har en normalfordelt population.

Tilsvarende formler gælder for de andre tilfælde). estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1.1. Den totale mængde i populationen er givet ved Nμ . Vi har en stikprøve på n elementer.4 Konfidensinterval for andel Vi har en population af størrelsen N. hvoraf x besider egenskaben.1. Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3. Det forudsættes.5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer.6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer.α / 2 n N −1 (svarende til tilfælde 3.3. hvoraf p har en vis egenskab. n1 . af n ≥ 40 . Konfindensinterval for antal med egenskab Vi har en population med N elementer. n 15 . x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3. n2 ≥ 40 .1c. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x .1. hvoraf x har egenskaben. hvoraf en andel p besidder en vis egenskab.1. middelværdi μ og spredning σ. Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s. Vi har en stikprøve på n elementer.

3.2 Stratificerede stikprøver 3. 16 .1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.2.

2.3. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes. 17 .2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata.

dvs. 18 . kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser. at sprednngen minimeres. på flere forskellige måder.2. strata med stor spreding får et større antal end evd proportional allokering. fordele stikprøven ud på de enkelte strata. Stikprøven fordeles således. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne .3.3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere. dvs. Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum.

19 . og der bør ikke være en tredie mulighed. at testen kan anvendes. Ved test for middelværdi. varians og andel bør man undersøge. Beregn teststørrelsen og p-værdien. Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser). sammen med en beregning af p-værdien. idet både test-størrelse og kritiske værdier beregnes og indtegnes. gerne vha. om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 . Med mindre andet oplyses. at H 0 ikke gælder. 2) 3) Opskriv eventuelle forudsætninger for. om alle forudsætningerne for testen faktisk gjaldt. Undersøg. Husk at opskrive relevante formler.og P-metoderne. Endvidere bør observationerne understøtte H A . mens H A er. og undersøg evt. eller ved at se på p-værdien. om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. eller gerne begge dele. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese.4. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. så bør følgende fremgangsmåde anvendes: 1) Opstil. disse. 4) 5) De fleste lærebøger skelner mellem tre metoder. nulhypotesen H 0 og alternativhypotesen H A . hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. men som sagt er begge dele ikke nødvendige. og at vedlægge udskrift af relevante bregninger i Excel. Undersøg. Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden. der fortæller mest om situationen. CKStat's skabeloner anvender både KV. Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. om 'nulværdien' ligger heri. CKStat. Se de relevante tests for yderligere oplysninger. spredning. ud fra opgaveteksten.

eller anvende test (4.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. σ/ n Forudsætninger: a) Vi skal have en normalfordeling. enten grafisk (4.2 Test for middelværdi. stikprøvens gennemsnit x . eller et estimat herfor.1. 20 .2. 4.1b : Normalfordeling med ukendt varians 4. nemlig standardafvigelsen s. alt efter nul.1a : Normalfordeling med kendt varians 4.3. spredning og andel 4.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter. hvad vi ved om situationen.3.1c : Ukendt fordeling.2.4. Vi kender stikprøvestørrelsen n.1) eller (4. test evt. om vi har en normalfordeling. stor stikprøve Man kan forinden teste. (4. ud fra stikprøven.2.4. at efter. og vi kender enten den sande spredning σ for den stokastiske variabel. dette vha.1) eller på anden vis (4.2. som jo er et estimat for middelværdien μ .1c) i stedet. varians.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel.4) b) Spredningen (eller variansen) skal være kendt.4.4). at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. 4.2. μ 0 .2. ud fra en stikprøve. Vi ønsker at sammenligne middelværdien med en fast størrelse. Der er i virkeligheden tale om hele tre forskellige tests.

dette vha.n −1 (t ) beregnes som =TDIST(ABS( t).b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter. (4. stor stikprøve Selve testen: Findes i tre varianter.4. s/ n Forudsætninger: Vi skal have en normalfordeling.α / 2 < t < t n −1.α − t n−1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. alt efter nul.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT .α / 2 < t − t n −1. alt efter nul. n ≥ 40 .α / 2 − t n −1.α / 2 − t n −1. test evt.n −1 (t ) t < t n −1.α / 2 > t t > t n −1.1) eller (4. σ/ n Forudsætninger: Stikprøven skal være stor. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 .og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. 1) 4.α / 2 Husk.n −1 (− | t |) 1 − FT .1.n −1 (t ) t= p-værdi Accept Forkast 2 FT .4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .3.2.4.α / 2 > t eller t > t n −1.1.c Ukendt fordeling.2. n–1. dvs.

α / 2 χ 2 n −1.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1.3.2.6).1−α / 2 < χ 2 < χ 2 n −1.1− α / 2 χ χ 2 > χ 2 n −1. Selve testen: Findes i tre varianter.1−α / 2 > χ 2 eller χ 2 > χ 2 n −1.α / 2 χ 2 n −1. Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha. alt efter nul.1−α / 2 < χ 2 χ 2 < χ 2 n −1. at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader.4.α / 2 kan beregnes i Excel som =CHIINV( α / 2 .2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer.n-1). 22 .α / 2 Husk. (4. Beregninger: χ 2 -fraktilen χ 2 n −1.α / 2 2 n −1.

a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter.eks. s1 eller s2 . 4. at efter.2.3a : Normalfordelinger med kendte varianser 4. om den ene middelværdi er mindst 3 større end den anden. store stikprøver Der forekommer et tal D i hypoteserne.4) b) Spredningerne (eller varianserne) skal være kendt. 4.2. ud fra to stikprøver.3. Der er i virkeligheden tale om hele tre forskellige tests. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor. og man vælger som regel D = 0 for at få en direkte sammenlining.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel. ud fra stikprøven. så skal vi teste for μ1 ≥ μ 2 + 3 .4. skal teste. Dette tal er en konstant. men ens varianser 4.2. Men hvis man f.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.3b : Normalfordeling med ukendte. 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger. alt efter nul. test evt. Vi kender stikprøvestørrelserne n1 og n2 . dette vha. f.2. stikprøvernes gennemsnit x1 og x2 x . (4.2.3.4. μ1 ≤ μ 2 + D .1) eller (4. 23 .eks. dvs. at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt. D = 3.3c : Ukendt fordelinger. hvad vi ved om situationen.

α / 2 > t 1 − FT .1) eller (4.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t). n1+n2–2. Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.α / 2 < t < t n1 + n2 − 2. (4.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT .n1 + n2 − 2 (− | t |) − t n1 + n2 − 2.n1 + n2 − 2 (t ) − t n1 + n2 − 2.α / 2 > t eller t > t n1 + n2 − 2.b Normalfordelinger med ukendt varians.α / 2 − t n1 + n2 − 2. 1) 24 . test evt.4.n1 + n2 − 2 (t ) t < t n1 + n2 − 2.α / 2 FT . alt efter nul. n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling.3.α / 2 Accept Forkast Husk. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.4.α / 2 < t − t n1 + n2 − 2.2.α / 2 t > t n1 + n2 − 2.3. dette vha. fælles varians Selve testen: Findes i tre varianter.

(4.5) 25 .c Ukendte fordelinger. Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store.3.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4.2.2. Varianserne skal være ens – dette kan testes vha. alt efter nul. dvs. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne. n ≥ 40 . stor stikprøve Selve testen: Findes i tre varianter. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt.

xi og yi . d i = yi − x1 . (4.n −1 (t ) t < t n −1. forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler. 1) 26 . dette vha.og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT .eks.n −1 (− | t |) d < d0 d − d0 t= s/ n FT .α / 2 < t < t n −1.n −1 (t ) beregnes som =TDIST(ABS( t). Selve testen: Selve testen: Findes i tre varianter. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer. og ønsker at undersøge middelværdien d af denne forskel.3. Kort sagt. s/ n Forudsætninger: Vi skal have en normalfordeling. Endvidere kender vi standardspredningen s af d i 'erne.α / 2 > t t > t n −1.4. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader.1) eller (4.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT . og vil undersøge deres differenser.α / 2 Accept Forkast − t n −1.n −1 (t ) 1 − FT .2.α / 2 − t n −1. n–1. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin).α / 2 < t − t n −1. Vi har gennemsnittet d heraf.α / 2 > t eller t > t n −1. vi har to rækker af n tal.4. alt efter nul. hvir vi har obsrveret før og efter en given ændring (f. test evt.α − t n−1.4 Parvis sammenligning.α / 2 Husk.

α / 2 F < Fn1 −1. Selve testen: Beregningerne er lettere. Beregninger: F-fraktilen Fn1 −1. og vil teste.n2 −1. n2-1) 27 . at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 .3.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1.4.n2 −1. alt efter nul. således at stikprøve 1 har den største observerede spredning. hvis vi evt.2.n2 −1.α F > Fn1 −1. s1 > s2 . s2 Forudsætninger: Data skal være normalfordelt – dette testes vha. n1-1. Findes i tre varianter.α / 2 kan beregnes i Excel som =FINV( α / 2 .6). n2 − 1 frihedsgrader. bytter om på stikprøverne. (4.n2 − 2.n2 −1.5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer.α Husk at bytte om på de to stikprøver! Husk.α / 2 F > Fn1 −1. om spredningerne eller varianserne er ens.

6 Test for andel Anvendelse: Vi har en population.4. Vi ønsker at sammenligne med en fast andel.og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. p0 . som besidder egenskaben. Estimatet for p er da p = n . ˆ x Vi har altså en stikprøve på n individer. alt efter nul. hvoraf x har egenskaben. det observerede antal x og den formodede andel p0 .2. Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. Selve testen: Findes i hele tre varianter. Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor. at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt. hvori nogle af medlemmerne besidder en vis egenskab. n ≥ 40 . Derefter kan teststørrelsen z og den relevante p-værdi aflæses. dvs. 28 . Vi vil undersøge størrelsen af den andel p af populationen.

Vi ønsker at sammenligne disse to. Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store. at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt. dvs. n1 ≥ 40 og n2 ≥ 40 . Derefter kan teststørrelsen z og den relevante p-værdi aflæses.7 Test for forskellen mellem to andele Anvendelse: Vi har to population. Selve testen: Findes i hele tre varianter. hvoraf x1 og x2 har egenskaben. som besidder egenskaben.og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4. Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x.2. 29 . alt efter nul. hvori nogle af medlemmerne besidder en vis egenskab. Vi har altså to stikprøver på n1 og n2 individer.

Excels analyse-værktøj ANOVA: SIngle factor.5). hvor vi sammenligner den mindste og den største af stikprøvernes spredninger. men foretages let vha. som fortolkes og anvendes på vanlig vis. Forudsætninger: Alle populationerne skal være normalfordelte. (0.638871). én fra hver population. 30 .1)) Alle varianserne skal være ens (varianshomogenitet). som de har samme middelværdi.8 Variansanalyse Anvendelse: Vi har en række populationer.471117 0. Vi har en række stikprøver.2. og som alle har same varians. som alle er normalfordelte..9167 df MS F F crit P-value 2 41.91667 792 874.4. (Kan kontrolleres ved test (4. Kan kontrolleres ves test (4. og vi vil afgøre.2. Beregninger: Beregingerne er komplicerede. Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value.638871 4. Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = .5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82.4..45833 0.

31 .

være om et antal observationer af en given stokastisk variabel følger en given fordeling. Det kan f.4. 32 . inddelt i kategorier. så risikerer man. at de forventede antal. En generel forudsætning i disse tests er. eller om der er uafhængighed i en kontigenstabel. Fælles for alle disse tests er. ikke på de tilsvarende frekvenser eller sandsynligheder.eks. indtil de forventede antal kommer op over 5.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge. bør være mindst 5: Ei ≥ 5 . om et givet statistisk materiale. så kanman slå de mindste kategorier sammen. følger et bestemt mønster. bestående af optællinger af observationer. Ei . Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster. at man tester og regner på de konkrete observerede (og forventede) antal. at teststørrelsen χ 2 bliver for stor. Holder denne forudsætning ikke. Er denne forudsætning ikke opfyldt. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. og dermed den tilsvarende p-værdi for lille.

Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i. De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen.. Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling.. bør erstattes af pasende og mere beskrivende kategorititler. pn passer med disse observerede antal. 'Kat2'. være χ 2 -fordelt med n − 1 frihedsgrader. dvs.. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . osv. .3. og det observeres. om sandsynlighederne p1 . en opdeling af hændelser i n kategorier.1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population. p2 . p2 .. dvs..4. Forudsætninger Alle de forventede værdier Ei bør være mindst 5. Vi vil gerne teste. Resten af de relevante størrelser vil nu blive beregnet automatisk 33 . som er opdelt i n kategorier. Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0.. Denne vil. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes. Ei > 5 .. at der er Oi elementer fra kategori i.00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'. Ei under nedenstående forudsætninger... og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes.. pn kendes. En stikprøve udtages. Andelene p1 . p2 ..

3. relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen. "R2" . hvor der er r kategorier i den ene inddeling og c i den anden. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5. Der er uafhængighed i denne inddeling? (dvs. hvorpå resten af størrelserne beregnes automatisk. H A : Der er ikke uafhængighed i kontigenstabellen. observerede værdier. "C2".. .4. Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f.eks. Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. Herefter erstattes "xxxxx" i skemaet med de faktiske.og søjle-overskrifterne "R1". De forventede værdier Ei beregnes. Ei > 5 . 34 . dvs... og "C1". bør erstattes af mere sigende kategori-titler.. mand/kvinde og ryger/ikke-ryger).

Normalfraktildiagram 2.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie. justeres til.50 -2.00 -2.50 2. at vi tegner et normalfraktildiagram (eller et q-q-diagram).50 0.4.4.00 -1.Punkterne på dette diagram repræsenterer vores datasæt. Denne kan evt. så ligger disse punkter tæt omkring den bedste rette linie.00 -0.00 1. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på. og der må gerne være tekst eller tomme celler i området. Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox. Ved klik på OK genereres nogle mellemregninger og selve grafen. Dette område behøver ikke være kun en søjle eller kun en række. og er der tale om en normalfordeling. hvis man ønsker.50 zi 2 4 6 8 10 12 14 xi 35 .4 Andre tests 4.50 1.00 0. hvori man skal markere de data.50 0 -1. der skal undersøges.

så vælg Tools.Add-Ins.Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke.5. Lineær regression 5.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj.) Herefter fremkommer en ny dialogboks: 36 . og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK. Dette startes ved at vælge menupunkterne Tools.

136364 0.966939 Upper 95% 0. og sæt et hak i Labels.045455 -0. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.1 Significance F 2.9636 1512. som anvendes i 5.31818 -0. Det anbefales at sætte de resterene hakker som vist på figuren.19901 1.266581 2. at hvis 37 .2.715 8 2.22727 16.863636 7.342547 -1.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.86364 0.772727 5.04545 0.267045 9 406.9636 403.13636 14. jo mere forklarer modellen.997366 R Square 0. Løst sagt kan man sige.2.1E-10 Lower 95% -1.994739 Adjusted R Square 0.318182 0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. hvor beregningerne skal fremkomme.De afhængige variable (y-værdierne) skal angives i Input Y Range.22727 -0.40909 22.409091 samt nogle grafer. En kort oversigt: Multiple R.863636 -0.954545 10.31818 18.40909 0. så tag dem med.40909 0.681818 3. R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1.090909 0.04545 12. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse.89364 2.994082 Standard Error 0.227273 -0.05376 38.380823 2.19426 0. I Output Range skal man vælge det sted på regnearket.59091 Residuals 0.

når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. Hvis dette tal er større end f. især ved beregningen af forudsigelsesintervaller. så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error. Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable. Først står skæringen med y-aksen (eller konstantleddet). på dansk standardfejlen for residualerne. dernæst koefficienterne for de enkelte forklarende variable (hældningerne). som især er interessante. så er modellen værdiløs.eks.97. variablen er insignifikant". 5%. Igen bør disse tal helst være under 5%. Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant". P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0. for at modellen er noget værd.2) 38 . Endeligt indeholder den nederste del residualerne. I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients.forklaringsgraden er på 0.2. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter. dvs.

1) teste dette.2. mindre residualer) for lave værdier af x. er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable. Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. men at punkterne i stedet spreder sig fra observation til observation. Forudsætning 1 testes ved at tegne et linie-plot.5. Middelværdien vil altid være 0 (dvs. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0. Forudsætning 1 holder. om punkterne fordeler sig pænt omkring den bedste rette linie i plottet.2 Simpel lineær regression 5. et plot af y-værdierne som funktion af xværdierne.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. Forudsætning 2 holder. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f. så vi behæver blot at konstatere. β1 er hældningen og E er residualet.eks. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) . den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt).1). Residulerne tilbyder Excel at beregne. Igen tilbyder Excel at gøre dette. Forudsætning3 holder. at punkterne klumper sig sammen og følger en kurve. en parabel). 39 . Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5. hvis punkterne er spredt jævnt ud over grafen. dvs. og der ikke er tendens til f. (4. hvis der ikke er tendens til. og denne graf kan sagtens anvendes. og udfra disse kan vi vha. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.eks.4. hvis pukterne fordeler sig pænt omkring en ret linie. so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for. at vi kan foretage en lineær regression. at punkterne er tættere på førsteaksen (dvs.

Denne størrelse er beregnet for én i regresionen under t-stat.090909 0.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. Teststørelsen er t-fordelt med n − 2 frihedsgrader.1 Significance F 2. som man beregner i regressionen.89364 2. og s1 s1 er standardfejlen for denne koefficient. hvor b er den faktiske hældning. hvis hældningen β1 ≠ 0 . hvis der er en reel sammenhæng mellem de to variable.214879 40 .40909 0. Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0. og i sidste kolonne er p-værdien angivet.715 8 2.966939 Upper 95% 0.267045 9 406.19901 1.994082 Standard Error 0.5.380823 2. hvor n er antallet af datasæt i regressionen.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. Significance F.997366 R Square 0.05376 38. Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 .2.1E-10 Lower 95% -1. dvs.9636 403.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5.136364 0.19426 0.342547 -1.3) Den simple lineære model er signifikant.266581 2.2. Denne p-værdi er også at finde øverst i regressionen under ANOVA.994739 Adjusted R Square 0.9636 1512.

1E-10 Lower 95% -1.1 Significance F 2.05376 38.40909 0. teste.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT . om β1 ≠ 0 . som man beregner i regressionen. SUMMARY OUTPUT Regression Statistics Multiple R 0.136364 0. men det er mere usædvanligt). så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt.266581 2.19426 0.342547 -1.966939 Upper 95% 0. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat. og i sidste kolonne er p-værdien angivet.2.090909 0. Denne p-værdi er også at finde øverst i regressionen under ANOVA.994082 Standard Error 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT . hvor b1 er den faktiske hældning.715 8 2.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide.n − 2 (t ) z > − zα / 2 1 − FT .5. Significance F. s1 og s1 er standardfejlen for denne koefficient. b −c Teststørrelsen er t = 1 . om den forklarende variabel er signifikant.997366 R Square 0.9636 1512.214879 41 .89364 2.9636 403.380823 2.267045 9 406.994739 Adjusted R Square 0.3 Test for hældningen Vil man undersøge størrelsen på hældningen. Teststørelsen er t-fordelt med n − 2 frihedsgrader. dvs.19901 1. hvor n er antallet af datasæt i regressionen.

715 8 2. som man beregner i regressionen.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.994739 Adjusted R Square 0.40909 0.342547 -1.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .136364 0.05376 38. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os. hvor n er antallet af datasæt i regressionen.267045 9 406.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0. at alternativhypotesen skal understøtte de observerede data! For specialtilfældet. SUMMARY OUTPUT Regression Statistics Multiple R 0.997366 R Square 0.1 Significance F 2.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet). b −c Teststørrelsen er t = 0 .9636 403.19901 1.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.9636 1512.89364 2. så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt.966939 Upper 95% 0.090909 0.2. om β0 = 0 eller ej. H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT .n − 2 (t ) z > − zα / 2 1 − FT .214879 42 . men det er mere usædvanligt). hvor b0 er den faktiske skæring.5.994082 Standard Error 0.19426 0. og i sidste kolonne er p-værdien angivet. s0 og s0 er standardfejlen for denne koefficient.380823 2. Teststørelsen er t-fordelt med n − 2 frihedsgrader. hvor vi undersøger.266581 2. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.1E-10 Lower 95% -1.

Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5. ud fra en given x-værdi.2. x-værdierne) – x ^2 43 .5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi. yny .1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser. Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2. som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne.5. for hvilken vi ikke har data i observationssættet. xny . som kan aflæses i regressionen øverst som Standard Error.2.α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2.

at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0..0038 0..9130 0.0143 P-værdi Nedre 95% Øvre 95% 0.0514 -254. sammen med den tilsvarende p-værdi.0259 0.0141 F 41..3.5380 57. Teststørrelsen for denne test er svær at beregne manuelt.5043 4.0889 44 .5164 11 3932...2 Signifikans af den lineære model Den lineære model er signifikant.7054 0. hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable.1850 0.8837 Justeret Rkvadreret 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. βi er de enkelte variables koefficienter og E er residualet.7724 Signifikans F 7.en kan findes i Excels beregninger.8625 Standardfejl 18.0574 0.3.0020 0.9400 R-kvadreret 0.0328 14933.2607 0. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + . hvis mindst én af koefficienterne βi ikke er 0. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + .9278 0..1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable.4424 0.272 ⋅10 −6 ) indikerer. dvs. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = .6240 -0.3 Multipel lineære regression 5.4970 13 33799.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126. + E hvor β0 er konstantleddet (skæringen med y-aksen) . at en lav p-værdi (som nedenunder.5000 t-stat -2.4672 357. + E 5. Bemærk. = 0 og H A : mindst én af βi 'erne er ikke 0.1315 0. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.5. hvor den er 7.

3.5000 t-stat -2.5043 4.4970 13 33799.8625 Standardfejl 18.0143 P-værdi Nedre 95% Øvre 95% 0.0574 0.9130 0.4672 357. og si si er standardfejlen for denne koefficient. Teststørelsen er t-fordelt med n − 2 frihedsgrader.0141 F 41. hvis den har en reel indflydelse på Y.0020 45 .1850 0.9400 R-kvadreret 0.9278 -0. Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i . og i sidste kolonne er p-værdien angivet.6240 0. at en lav p-værdi indikerer.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.0328 14933. hvor n er antallet af datasæt i regressionen. dvs. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.7724 Signifikans F 7.4424 0.5. Bemærk.0514 -254.1315 0. Denne størrelse er beregnet for én i regresionen under t-stat.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant.2607 0. som man beregner i regressionen.0259 0.5164 11 3932.5380 57.0038 0.0889 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. hvis koefficienten βi ≠ 0 . hvor bi er den faktiske koefficient.8837 Justeret Rkvadreret 0.7054 0.

Krav 3 skal helst være opfyldt. så er den værdiløs. som bedst anvendes til at vælge mellem modeller. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad. så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5. som opfylder krav 2 og 3. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller.3. 46 . så vil de begge i modellen vise sig ved at den ene er insignifikant. Som regel kan der ske.5. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. og modellerer videre. Krav 2 er absolut – hvis modellen ikke er signifikant.4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række.3)). Krav 1 er et kvalitetsmål. Hvis der er flere insignifikante variable.3. at hvis to forklarende variable er korrelerede.

Sign up to vote on this title
UsefulNot useful