Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

. xn .2..1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 . k) I Excel: = COMBIN(n. + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n. dvs... x2 . så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + . + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte. k) 5 . så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige. så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 . . B2 . Sandsynlighedsregning og stokastiske variable 2... hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 .. Bn udgør en klassedeling af udfaldsrummet. A ∩ B = Ø .. så P ( A) = P( x1 ) + P( x2 ) + . ..

eller som kun kan antage adskilte værdier. så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel.2. man finder i tabellerne.2 Diskrete stokastiske variable Stokastiske variable. Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X . For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder. vægt. hvor k er en konstant 6 . som angiver et antal. hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY . Y ) Var (kX ) = k 2Var ( X ) . er altid diskrete. temperatur) er som regel kontinuerte stokstiske variable. Generelle målinger (størrelse.

#VALUE! #VALUE! P(X≥k) 1. X er altså binomial-fordelt.2. hvis n > 20 . n. uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer.. 1. n. 7 . og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer... p... p. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1.1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer. hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange. p. at hvis der står #NUM! i nogle af cellerne efter beregningerne.. Bemærk. disse rækker... Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . 19 20 P(X≤k) #VALUE! #VALUE! . #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter. x = 0. p) ⎛n⎞ n! p k (1 − p) n − k . Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. nemlig at k>n.. . TRUE) P( X = k ) =BINOMDIST( k. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! .. n. n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k. karakteriseret ved: et basiseksperiment.. Slet evt. 2.0000 #VALUE! . X ≈ bin(n. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen.2. så skyldes det ugyldige værdier.

2. n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x. Bemærk. X ≈ hyp( N . men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes. M . M og p i de violette felter.. 19 20 P(X≤k) #VALUE! #VALUE! . 1. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.. N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel.0000 #VALUE! .. n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ . at hvis der står #NUM! i nogle af cellerne efter beregningerne... hvis n > 20 . x = 0. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N.. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. 8 . #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! ... . #VALUE! #VALUE! P(X≥k) 1.2. k. Slet evt. M..2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . så skyldes det ugyldige værdier. 2... nemlig at k>n. disse rækker. X er altså hypergeometrisk-fordelt.

forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde. TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 ...2. er uafhængige. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k.. at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum.. #VALUE! P(X=k) #VALUE! #VALUE! . hvor parametren λ er det forventede antal hændelser i vores tidsrum. e − λ λk Tæthedsfunktionen er P( X = k ) = . λ .. X ≈ Po(λ ) . og X ≈ Po(λ ) .. X angiver antal hændelser i et minut.3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. 1. #VALUE! P(X≥k) 0. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1. og hvis Y angiver antal hændelser i en time. λ . . λ . X angiver da antal hænder i det givne tidsrum (som gerne må være stort). Bemærk. at hvis fx. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. da vi kan forvente 60 gange så mange hændelser på en time som i et minut.2. TRUE) P( X = k ) =POISSON( k. som ikke overlapper hinanden. 9 . #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt. b) Det er meget usandsynligt..0000 #VALUE! ... så er Y ≈ Po(60 ⋅ λ ) . k = 0. 20 P(X≤k) #VALUE! #VALUE! . Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.. 2.

σ) er n ens fordelte... Standardnormalfordelingen har μ = 0 og σ = 1 . X 2 .2. For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ ... μ. I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi. så gælder der. n 10 . σ. σ) .. og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . μ. uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 .NORMDIST(a. TRUE) Flere ens fordelte.. TRUE) = 1. TRUE) .1) . σ. uafhængige stokastiske variable. at gennemsnittet af disse 1 X = ( X 1 + X 2 + . at hvis X ≈ N (μ. TRUE) = NORMDIST(b. man anvender i praksis og som er tabellagt. μ. σ. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . σ. X n ≈ N (μ.NORMDIST(x. så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x. μ. og vi skriver Z ≈ N (0.2.4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel.

ErlangS.Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler. Forskellige sandsynligheder beregnes nu.eks. 11 . som f. og den inverse fordeling. Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel. Φ . og værdier for a og b nedenunder. I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling.

så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 .5 Approximationer I mange situationer kan man approximere en foreling med en anden. så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n. S .1 . så kan vi apprixomere med normalfordelingen: ⎛ k + 0. n) a) Hvis n / N ≤ 0. Vi giver en lille oversigt: Binomialfordelingen X ≈ (n.2.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 . p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 .2.5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 . så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N . så kan vi approximere med normalfordelingen: ⎛ k + 0. ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 .

Konfidensintervallet fortæller noget om. 13 . Jo bredere intervallet er.1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population. at den sande værdi for den estimerede størrelse ligger i dette interval. jo mere usikre er vi på resultatet.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha.α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader. især ved konfidensintervaller for middelværdier. 1 − α . Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning. og som regel vælger vi at snakke om 95% konfidensintervaller.1. CKStat's skabelon. hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed. x± b) c) Normalfordeling. Konfidensintervaller angives altid med et vist konfidensniveau. x + n ⎢ ⎦ ⎣ 3. Sørg for at finde den rigtige skabelon. ukendt populationsspredning x± t n −1. 3. z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n . at vi er 95% sikre på. og et intervalestimat (eller et konfidensinterval).3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s.

dvs. og populationsspredningerne behøver ikke at være kendte. og en stikprøve herfra med størrelsen n og spredningen s. Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store.3 Konfidensinterval for varians Vi har en normalfordelt population.2. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2. c) To normalfordelinger med samme spredning. n1 ≥ 30 og n2 ≥ 30 .5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader.3.1.1−α / 2 n 14 . hvoraf vi har udtaget to uafhængige stikprøver.α / 2 χ n −1. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne. Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1. at populationerne har samme varians.2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer. Dette gøres ved testen (4. 2 2 3.α / 2 s 1 2 . {xi } og { y j } . hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste. med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 .1.

5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer. Vi har en stikprøve på n elementer.1. x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3. n1 . hvoraf p har en vis egenskab. Den totale mængde i populationen er givet ved Nμ .1. hvoraf en andel p besidder en vis egenskab. n 15 . estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1.6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer.1. hvoraf x har egenskaben.3. af n ≥ 40 . n2 ≥ 40 .1. hvoraf x besider egenskaben. Konfindensinterval for antal med egenskab Vi har en population med N elementer. Vi har en stikprøve på n elementer. Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3.α / 2 n N −1 (svarende til tilfælde 3.4 Konfidensinterval for andel Vi har en population af størrelsen N. Tilsvarende formler gælder for de andre tilfælde).1c. Det forudsættes. middelværdi μ og spredning σ. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x . Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s.

16 .2 Stratificerede stikprøver 3.3. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.2.1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata.

17 .2.2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes.3.

dvs.3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere. på flere forskellige måder. 18 . dvs. at sprednngen minimeres. Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser. strata med stor spreding får et større antal end evd proportional allokering. Stikprøven fordeles således.3. fordele stikprøven ud på de enkelte strata. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne .2.

og undersøg evt. Ved test for middelværdi. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. og at vedlægge udskrift af relevante bregninger i Excel.og P-metoderne. og der bør ikke være en tredie mulighed. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 . spredning. Undersøg. varians og andel bør man undersøge. der fortæller mest om situationen. Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese. CKStat. 4) 5) De fleste lærebøger skelner mellem tre metoder. sammen med en beregning af p-værdien. Se de relevante tests for yderligere oplysninger. CKStat's skabeloner anvender både KV. at H 0 ikke gælder. hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. mens H A er. at testen kan anvendes. nulhypotesen H 0 og alternativhypotesen H A . 19 . idet både test-størrelse og kritiske værdier beregnes og indtegnes. Beregn teststørrelsen og p-værdien. Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser). men som sagt er begge dele ikke nødvendige. om alle forudsætningerne for testen faktisk gjaldt. 2) 3) Opskriv eventuelle forudsætninger for. ud fra opgaveteksten.4. Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden. disse. Med mindre andet oplyses.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. eller gerne begge dele. om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler. Undersøg. Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. Husk at opskrive relevante formler. Endvidere bør observationerne understøtte H A . gerne vha. eller ved at se på p-værdien. så bør følgende fremgangsmåde anvendes: 1) Opstil. om 'nulværdien' ligger heri.

2 Test for middelværdi.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter. stor stikprøve Man kan forinden teste. hvad vi ved om situationen. 20 .2. spredning og andel 4.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel. (4.1) eller på anden vis (4. eller et estimat herfor.4. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. enten grafisk (4. σ/ n Forudsætninger: a) Vi skal have en normalfordeling. at efter.3. som jo er et estimat for middelværdien μ .4. eller anvende test (4.1c) i stedet.1a : Normalfordeling med kendt varians 4.1b : Normalfordeling med ukendt varians 4. Vi kender stikprøvestørrelsen n. Vi ønsker at sammenligne middelværdien med en fast størrelse.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. ud fra stikprøven.1c : Ukendt fordeling. dette vha. ud fra en stikprøve. om vi har en normalfordeling. alt efter nul.2.2.2.4) b) Spredningen (eller variansen) skal være kendt. Der er i virkeligheden tale om hele tre forskellige tests.2. μ 0 . varians. 4. nemlig standardafvigelsen s.1. test evt.1) eller (4.2.4. og vi kender enten den sande spredning σ for den stokastiske variabel. 4.3. stikprøvens gennemsnit x .4).

alt efter nul. σ/ n Forudsætninger: Stikprøven skal være stor.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.c Ukendt fordeling.2.α / 2 < t − t n −1.3.α / 2 − t n −1.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT .α / 2 > t t > t n −1.b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter.α / 2 > t eller t > t n −1. (4. dvs. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 . test evt. s/ n Forudsætninger: Vi skal have en normalfordeling.1) eller (4. stor stikprøve Selve testen: Findes i tre varianter. n ≥ 40 .4.1.α / 2 − t n −1.n −1 (t ) t < t n −1.4.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .α / 2 < t < t n −1. dette vha. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.n −1 (− | t |) 1 − FT .n −1 (t ) t= p-værdi Accept Forkast 2 FT .n −1 (t ) beregnes som =TDIST(ABS( t). 1) 4.α − t n−1.2. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. alt efter nul. n–1.1.α / 2 Husk.

Beregninger: χ 2 -fraktilen χ 2 n −1.1−α / 2 > χ 2 eller χ 2 > χ 2 n −1. Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha.2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer.6). (4. 22 .1− α / 2 χ χ 2 > χ 2 n −1.4.α / 2 Husk.3.α / 2 χ 2 n −1.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1. at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader.α / 2 kan beregnes i Excel som =CHIINV( α / 2 .n-1).1−α / 2 < χ 2 < χ 2 n −1. alt efter nul.α / 2 2 n −1.1−α / 2 < χ 2 χ 2 < χ 2 n −1.2.α / 2 χ 2 n −1. Selve testen: Findes i tre varianter.

f.3. men ens varianser 4. og man vælger som regel D = 0 for at få en direkte sammenlining. stikprøvernes gennemsnit x1 og x2 x . test evt.3c : Ukendt fordelinger.4. hvad vi ved om situationen. D = 3. 4.eks.eks.1) eller (4. Der er i virkeligheden tale om hele tre forskellige tests. s1 eller s2 . 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger.4) b) Spredningerne (eller varianserne) skal være kendt.2.3a : Normalfordelinger med kendte varianser 4. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor.2. (4. 4.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Dette tal er en konstant. at efter. Vi kender stikprøvestørrelserne n1 og n2 . store stikprøver Der forekommer et tal D i hypoteserne. Men hvis man f.2. ud fra stikprøven.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel.2.3. ud fra to stikprøver.2.3b : Normalfordeling med ukendte.4.a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter. at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt. 23 . alt efter nul. dette vha. så skal vi teste for μ1 ≥ μ 2 + 3 . dvs. μ1 ≤ μ 2 + D . om den ene middelværdi er mindst 3 større end den anden. skal teste.

alt efter nul.2. Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.4. test evt.1) eller (4. (4. n1+n2–2. fælles varians Selve testen: Findes i tre varianter.n1 + n2 − 2 (t ) − t n1 + n2 − 2. 1) 24 .α / 2 > t eller t > t n1 + n2 − 2.α / 2 − t n1 + n2 − 2.n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t).α / 2 Accept Forkast Husk.3.n1 + n2 − 2 (t ) t < t n1 + n2 − 2.α / 2 > t 1 − FT .og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT .4.3. n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling. dette vha.α / 2 < t < t n1 + n2 − 2.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .α / 2 FT .n1 + n2 − 2 (− | t |) − t n1 + n2 − 2.α / 2 < t − t n1 + n2 − 2. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.b Normalfordelinger med ukendt varians.α / 2 t > t n1 + n2 − 2.

Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store. stor stikprøve Selve testen: Findes i tre varianter. (4. dvs. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne. alt efter nul.3. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt.4.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.2. Varianserne skal være ens – dette kan testes vha. n ≥ 40 .5) 25 .c Ukendte fordelinger.2.

n −1 (t ) t < t n −1.4 Parvis sammenligning.1) eller (4. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin). dette vha. 1) 26 . test evt. Selve testen: Selve testen: Findes i tre varianter. og vil undersøge deres differenser. Vi har gennemsnittet d heraf.4.4.α − t n−1.α / 2 − t n −1. alt efter nul. d i = yi − x1 .α / 2 Husk.3.n −1 (t ) 1 − FT . (4.α / 2 > t eller t > t n −1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. xi og yi .α / 2 < t − t n −1. og ønsker at undersøge middelværdien d af denne forskel. s/ n Forudsætninger: Vi skal have en normalfordeling.eks. vi har to rækker af n tal.α / 2 < t < t n −1. Kort sagt.n −1 (t ) beregnes som =TDIST(ABS( t). n–1.2.α / 2 Accept Forkast − t n −1. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer. Endvidere kender vi standardspredningen s af d i 'erne.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .n −1 (− | t |) d < d0 d − d0 t= s/ n FT . forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler. hvir vi har obsrveret før og efter en given ændring (f.og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT .α / 2 > t t > t n −1.

hvis vi evt. og vil teste.5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer.4. n2-1) 27 .n2 −1.n2 −1.n2 −1.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1. alt efter nul. bytter om på stikprøverne. n1-1.α Husk at bytte om på de to stikprøver! Husk.α / 2 F < Fn1 −1. s2 Forudsætninger: Data skal være normalfordelt – dette testes vha.6). om spredningerne eller varianserne er ens.α F > Fn1 −1. Beregninger: F-fraktilen Fn1 −1.α / 2 kan beregnes i Excel som =FINV( α / 2 .α / 2 F > Fn1 −1. Selve testen: Beregningerne er lettere.n2 − 2. således at stikprøve 1 har den største observerede spredning. (4. at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 . s1 > s2 .3. n2 − 1 frihedsgrader.2. Findes i tre varianter.n2 −1.

Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor.4. hvoraf x har egenskaben.og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.2. Vi ønsker at sammenligne med en fast andel. 28 . ˆ x Vi har altså en stikprøve på n individer. at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt.6 Test for andel Anvendelse: Vi har en population. n ≥ 40 . alt efter nul. hvori nogle af medlemmerne besidder en vis egenskab. Estimatet for p er da p = n . Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. p0 . Vi vil undersøge størrelsen af den andel p af populationen. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. dvs. som besidder egenskaben. det observerede antal x og den formodede andel p0 . Selve testen: Findes i hele tre varianter.

Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . Derefter kan teststørrelsen z og den relevante p-værdi aflæses. Vi ønsker at sammenligne disse to. dvs. Vi har altså to stikprøver på n1 og n2 individer. n1 ≥ 40 og n2 ≥ 40 .4. Selve testen: Findes i hele tre varianter. hvoraf x1 og x2 har egenskaben. Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne.2. hvori nogle af medlemmerne besidder en vis egenskab. alt efter nul. at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store.og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.7 Test for forskellen mellem to andele Anvendelse: Vi har to population. som besidder egenskaben. Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x. 29 .

som fortolkes og anvendes på vanlig vis. én fra hver population..471117 0. som alle er normalfordelte. 30 . Kan kontrolleres ves test (4.. hvor vi sammenligner den mindste og den største af stikprøvernes spredninger. Vi har en række stikprøver.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value. Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = . Excels analyse-værktøj ANOVA: SIngle factor. (Kan kontrolleres ved test (4.2.2.5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82.9167 df MS F F crit P-value 2 41. (0.5). Beregninger: Beregingerne er komplicerede.45833 0. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre. som de har samme middelværdi. Forudsætninger: Alle populationerne skal være normalfordelte. og vi vil afgøre.638871).91667 792 874.4.638871 4.4. Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197.8 Variansanalyse Anvendelse: Vi har en række populationer. og som alle har same varians.1)) Alle varianserne skal være ens (varianshomogenitet). men foretages let vha.

31 .

Fælles for alle disse tests er. om et givet statistisk materiale. ikke på de tilsvarende frekvenser eller sandsynligheder. bestående af optællinger af observationer. bør være mindst 5: Ei ≥ 5 . følger et bestemt mønster. Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster. Holder denne forudsætning ikke. Det kan f. Ei . En generel forudsætning i disse tests er. indtil de forventede antal kommer op over 5. så kanman slå de mindste kategorier sammen. at de forventede antal. Der er derfor en stor risiko for at afvise en korrekt nulhypotese.eks.4. inddelt i kategorier. eller om der er uafhængighed i en kontigenstabel. så risikerer man. 32 . Er denne forudsætning ikke opfyldt. at man tester og regner på de konkrete observerede (og forventede) antal. at teststørrelsen χ 2 bliver for stor.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge. og dermed den tilsvarende p-værdi for lille. være om et antal observationer af en given stokastisk variabel følger en given fordeling.

Vi vil gerne teste.1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population. p2 . Resten af de relevante størrelser vil nu blive beregnet automatisk 33 . at der er Oi elementer fra kategori i. p2 . Ei under nedenstående forudsætninger. som er opdelt i n kategorier. Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i. 'Kat2'. bør erstattes af pasende og mere beskrivende kategorititler. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes. Andelene p1 . Denne vil. dvs.. pn passer med disse observerede antal..4. og det observeres. en opdeling af hændelser i n kategorier. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . osv. om sandsynlighederne p1 .. . Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes.... pn kendes.00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'. De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen.3.. Ei > 5 .. p2 .. En stikprøve udtages.. dvs. Forudsætninger Alle de forventede værdier Ei bør være mindst 5. Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0.. være χ 2 -fordelt med n − 1 frihedsgrader.

og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. observerede værdier.4. De forventede værdier Ei beregnes. . hvorpå resten af størrelserne beregnes automatisk.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f. og "C1"...3. mand/kvinde og ryger/ikke-ryger). hvor der er r kategorier i den ene inddeling og c i den anden. bør erstattes af mere sigende kategori-titler. "R2" . 34 .. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5. Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række. Ei > 5 . "C2". Der er uafhængighed i denne inddeling? (dvs..eks. Herefter erstattes "xxxxx" i skemaet med de faktiske. relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen. H A : Der er ikke uafhængighed i kontigenstabellen. dvs.og søjle-overskrifterne "R1". Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader.

Denne kan evt. og der må gerne være tekst eller tomme celler i området.00 1. at vi tegner et normalfraktildiagram (eller et q-q-diagram). Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox.50 zi 2 4 6 8 10 12 14 xi 35 .50 -2. justeres til. og er der tale om en normalfordeling.4. hvori man skal markere de data.Punkterne på dette diagram repræsenterer vores datasæt. Ved klik på OK genereres nogle mellemregninger og selve grafen.00 0.50 0.50 2.50 0 -1.00 -1.4. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på.4 Andre tests 4. så ligger disse punkter tæt omkring den bedste rette linie.00 -0. der skal undersøges.00 -2.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie.50 1. hvis man ønsker. Normalfraktildiagram 2. Dette område behøver ikke være kun en søjle eller kun en række.

5.Add-Ins. og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke. så vælg Tools.) Herefter fremkommer en ny dialogboks: 36 . Lineær regression 5.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj. Dette startes ved at vælge menupunkterne Tools.

hvor beregningerne skal fremkomme.266581 2.De afhængige variable (y-værdierne) skal angives i Input Y Range.19901 1.227273 -0.40909 22.86364 0.04545 0. Løst sagt kan man sige. Det anbefales at sætte de resterene hakker som vist på figuren.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.994082 Standard Error 0. I Output Range skal man vælge det sted på regnearket.090909 0. R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1.045455 -0.9636 1512.31818 18.1E-10 Lower 95% -1.05376 38.22727 -0.13636 14.681818 3.136364 0. og sæt et hak i Labels.380823 2.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.31818 -0.59091 Residuals 0. at hvis 37 .89364 2.2.863636 7.267045 9 406.40909 0.04545 12.997366 R Square 0.966939 Upper 95% 0. så tag dem med.1 Significance F 2.9636 403.409091 samt nogle grafer.40909 0. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0.342547 -1.318182 0.863636 -0.772727 5.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.19426 0.2.994739 Adjusted R Square 0. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse. En kort oversigt: Multiple R.954545 10. som anvendes i 5. jo mere forklarer modellen.22727 16.715 8 2.

eks. Igen bør disse tal helst være under 5%. som især er interessante.2.97. Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant". 5%. så er modellen værdiløs. Endeligt indeholder den nederste del residualerne. Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter.2) 38 . når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0. så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error. I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients. variablen er insignifikant". dvs. for at modellen er noget værd. dernæst koefficienterne for de enkelte forklarende variable (hældningerne). på dansk standardfejlen for residualerne. især ved beregningen af forudsigelsesintervaller. Først står skæringen med y-aksen (eller konstantleddet).forklaringsgraden er på 0. Hvis dette tal er større end f.

39 . so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for. hvis punkterne er spredt jævnt ud over grafen.2. Residulerne tilbyder Excel at beregne.1) teste dette. Forudsætning 1 testes ved at tegne et linie-plot. β1 er hældningen og E er residualet. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0. om punkterne fordeler sig pænt omkring den bedste rette linie i plottet. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser. at punkterne er tættere på førsteaksen (dvs. men at punkterne i stedet spreder sig fra observation til observation. er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable. Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5.eks. Igen tilbyder Excel at gøre dette. Middelværdien vil altid være 0 (dvs. Forudsætning 2 holder. hvis pukterne fordeler sig pænt omkring en ret linie. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. et plot af y-værdierne som funktion af xværdierne. mindre residualer) for lave værdier af x. dvs. at vi kan foretage en lineær regression.eks. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) . Forudsætning3 holder. den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt). (4.2 Simpel lineær regression 5.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. at punkterne klumper sig sammen og følger en kurve.4. så vi behæver blot at konstatere. hvis der ikke er tendens til.5.1). Forudsætning 1 holder. og udfra disse kan vi vha. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f. og denne graf kan sagtens anvendes. en parabel). og der ikke er tendens til f.

1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. og i sidste kolonne er p-værdien angivet. hvor n er antallet af datasæt i regressionen.966939 Upper 95% 0.342547 -1.40909 0.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5. Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0.1E-10 Lower 95% -1.9636 403. Denne størrelse er beregnet for én i regresionen under t-stat.89364 2.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.19426 0. hvor b er den faktiske hældning. Significance F.2.994739 Adjusted R Square 0.3) Den simple lineære model er signifikant. som man beregner i regressionen.090909 0.05376 38.380823 2.997366 R Square 0.136364 0.267045 9 406.715 8 2.994082 Standard Error 0. hvis der er en reel sammenhæng mellem de to variable.1 Significance F 2. og s1 s1 er standardfejlen for denne koefficient. dvs. Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 . Teststørelsen er t-fordelt med n − 2 frihedsgrader.266581 2.2.214879 40 . Denne p-værdi er også at finde øverst i regressionen under ANOVA.5. hvis hældningen β1 ≠ 0 .9636 1512.19901 1.

om den forklarende variabel er signifikant.9636 1512. hvor b1 er den faktiske hældning. så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT .516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.997366 R Square 0.9636 403.090909 0.05376 38.214879 41 . dvs. Teststørelsen er t-fordelt med n − 2 frihedsgrader. hvor n er antallet af datasæt i regressionen.966939 Upper 95% 0.136364 0.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.1E-10 Lower 95% -1.3 Test for hældningen Vil man undersøge størrelsen på hældningen. og i sidste kolonne er p-værdien angivet. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.994739 Adjusted R Square 0.n − 2 (t ) z > − zα / 2 1 − FT .994082 Standard Error 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT . s1 og s1 er standardfejlen for denne koefficient. men det er mere usædvanligt).19426 0.1 Significance F 2.19901 1.5. b −c Teststørrelsen er t = 1 . SUMMARY OUTPUT Regression Statistics Multiple R 0. Denne p-værdi er også at finde øverst i regressionen under ANOVA. som man beregner i regressionen.89364 2. om β1 ≠ 0 .266581 2.40909 0.715 8 2.267045 9 406. Significance F.2.380823 2. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide.342547 -1.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. teste.

40909 0.994739 Adjusted R Square 0.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet).5.9636 403.n − 2 (t ) z > − zα / 2 1 − FT . så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt. SUMMARY OUTPUT Regression Statistics Multiple R 0. Teststørelsen er t-fordelt med n − 2 frihedsgrader. hvor vi undersøger.342547 -1.966939 Upper 95% 0.715 8 2. at alternativhypotesen skal understøtte de observerede data! For specialtilfældet. b −c Teststørrelsen er t = 0 . og i sidste kolonne er p-værdien angivet.1 Significance F 2. hvor n er antallet af datasæt i regressionen.1E-10 Lower 95% -1.267045 9 406.266581 2. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os.2.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.994082 Standard Error 0.9636 1512. om β0 = 0 eller ej. hvor b0 er den faktiske skæring.090909 0.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0.214879 42 . men det er mere usædvanligt).05376 38. s0 og s0 er standardfejlen for denne koefficient.89364 2. som man beregner i regressionen.997366 R Square 0.136364 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.380823 2.19426 0. H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT .19901 1.

som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen. yny . Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne. Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2.5.2.α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2.2.5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi. for hvilken vi ikke har data i observationssættet. xny .1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser. som kan aflæses i regressionen øverst som Standard Error. ud fra en given x-værdi. x-værdierne) – x ^2 43 .

7054 0. Bemærk.8837 Justeret Rkvadreret 0.0259 0. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + . = 0 og H A : mindst én af βi 'erne er ikke 0..2 Signifikans af den lineære model Den lineære model er signifikant..4672 357. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = .9130 0.8625 Standardfejl 18. βi er de enkelte variables koefficienter og E er residualet.0020 0.5380 57..1850 0.0889 44 .3. dvs. sammen med den tilsvarende p-værdi.9278 0.3 Multipel lineære regression 5.0141 F 41. hvor den er 7..9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.5043 4. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + .3.en kan findes i Excels beregninger.1315 0. + E hvor β0 er konstantleddet (skæringen med y-aksen) . hvis mindst én af koefficienterne βi ikke er 0..1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.7724 Signifikans F 7.4970 13 33799.0038 0.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126. Teststørrelsen for denne test er svær at beregne manuelt.5.0514 -254. hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable.2607 0. + E 5.272 ⋅10 −6 ) indikerer.6240 -0.5000 t-stat -2.4424 0.0143 P-værdi Nedre 95% Øvre 95% 0..0328 14933.0574 0.5164 11 3932. at en lav p-værdi (som nedenunder.9400 R-kvadreret 0. at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.

8625 Standardfejl 18.8837 Justeret Rkvadreret 0.0889 0. hvis koefficienten βi ≠ 0 .7054 0. og si si er standardfejlen for denne koefficient.9130 0.5000 t-stat -2.5380 57.6240 0.1315 0.9278 -0.5.0514 -254.4970 13 33799.0143 P-værdi Nedre 95% Øvre 95% 0.2607 0. Teststørelsen er t-fordelt med n − 2 frihedsgrader.7724 Signifikans F 7.0020 45 . dvs.4424 0. som man beregner i regressionen.5043 4.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant.0259 0. og i sidste kolonne er p-værdien angivet.0141 F 41.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.0038 0.4672 357. Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i .0574 0. at en lav p-værdi indikerer.1850 0. hvis den har en reel indflydelse på Y. Bemærk. hvor bi er den faktiske koefficient.5164 11 3932.3.9400 R-kvadreret 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. Denne størrelse er beregnet for én i regresionen under t-stat.0328 14933. hvor n er antallet af datasæt i regressionen. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.

som bedst anvendes til at vælge mellem modeller. Krav 1 er et kvalitetsmål. Krav 2 er absolut – hvis modellen ikke er signifikant. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller. og modellerer videre.4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række. så er den værdiløs. så vil de begge i modellen vise sig ved at den ene er insignifikant. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad.5. Som regel kan der ske.3. som opfylder krav 2 og 3. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. Hvis der er flere insignifikante variable.3. 46 . så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5. Krav 3 skal helst være opfyldt. at hvis to forklarende variable er korrelerede.3)).