Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

. + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte.. så P ( A) = P( x1 ) + P( x2 ) + .. dvs. x2 .. B2 . hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 . A ∩ B = Ø . så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + .2. . xn . så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 . Bn udgør en klassedeling af udfaldsrummet... Sandsynlighedsregning og stokastiske variable 2.. så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige. k) 5 .. k) I Excel: = COMBIN(n.1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 ... + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n.

som angiver et antal. Y ) Var (kX ) = k 2Var ( X ) . eller som kun kan antage adskilte værdier. hvor k er en konstant 6 . Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X .2 Diskrete stokastiske variable Stokastiske variable. vægt. temperatur) er som regel kontinuerte stokstiske variable. er altid diskrete. Generelle målinger (størrelse. man finder i tabellerne. For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder.2. Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY . hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel.

TRUE) P( X = k ) =BINOMDIST( k. hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. n. TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen. disse rækker.1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer. p. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter. X ≈ bin(n. n. 19 20 P(X≤k) #VALUE! #VALUE! .. karakteriseret ved: et basiseksperiment. n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k.. . x = 0. Slet evt.. 7 . X er altså binomial-fordelt. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1..2. at hvis der står #NUM! i nogle af cellerne efter beregningerne.. #VALUE! #VALUE! P(X≥k) 1. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . 2. n.2. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. så skyldes det ugyldige værdier. hvis n > 20 . p.. nemlig at k>n. Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer.. p) ⎛n⎞ n! p k (1 − p) n − k . p.. 1...0000 #VALUE! .. Bemærk. og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer.

M . Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .. 2. k. så skyldes det ugyldige værdier.. x = 0. M og p i de violette felter. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. #VALUE! #VALUE! P(X≥k) 1.. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x. M.. 8 . X er altså hypergeometrisk-fordelt. Slet evt.. n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ . Bemærk..0000 #VALUE! .. 1.2. 19 20 P(X≤k) #VALUE! #VALUE! .. men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes.. nemlig at k>n. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N.2. at hvis der står #NUM! i nogle af cellerne efter beregningerne... N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel. X ≈ hyp( N . hvis n > 20 .2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. disse rækker. .

forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde. er uafhængige. #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt. X ≈ Po(λ ) . da vi kan forvente 60 gange så mange hændelser på en time som i et minut. og hvis Y angiver antal hændelser i en time. X angiver da antal hænder i det givne tidsrum (som gerne må være stort). X angiver antal hændelser i et minut.. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k.. at hvis fx. at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum. Bemærk. e − λ λk Tæthedsfunktionen er P( X = k ) = . 9 . 20 P(X≤k) #VALUE! #VALUE! . λ . TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . som ikke overlapper hinanden.. #VALUE! P(X=k) #VALUE! #VALUE! .0000 #VALUE! .2... λ . FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1.3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. 1. #VALUE! P(X≥k) 0.2. og X ≈ Po(λ ) . b) Det er meget usandsynligt. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. k = 0... λ .. . TRUE) P( X = k ) =POISSON( k. hvor parametren λ er det forventede antal hændelser i vores tidsrum.. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor.. så er Y ≈ Po(60 ⋅ λ ) . 2.

at hvis X ≈ N (μ. TRUE) = NORMDIST(b. X 2 . så gælder der.1) . X n ≈ N (μ. TRUE) = 1. TRUE) .NORMDIST(a. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ . så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x. σ. σ) . I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi.NORMDIST(x. μ. n 10 . at gennemsnittet af disse 1 X = ( X 1 + X 2 + . μ.. σ... σ) er n ens fordelte..2. uafhængige stokastiske variable. og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . Standardnormalfordelingen har μ = 0 og σ = 1 . σ.4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel. og vi skriver Z ≈ N (0. σ. man anvender i praksis og som er tabellagt. μ.. uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 . TRUE) Flere ens fordelte.2.. μ.

som f. og værdier for a og b nedenunder. 11 . Forskellige sandsynligheder beregnes nu. Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel.Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler. og den inverse fordeling. I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling. ErlangS. Φ .eks.

n) a) Hvis n / N ≤ 0.2. så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 .1 . ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 . så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N .5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 .5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 . så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n. p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 . Vi giver en lille oversigt: Binomialfordelingen X ≈ (n.5 Approximationer I mange situationer kan man approximere en foreling med en anden. S . så kan vi approximere med normalfordelingen: ⎛ k + 0. så kan vi apprixomere med normalfordelingen: ⎛ k + 0.2.

3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s. 1 − α . 3. Konfidensintervaller angives altid med et vist konfidensniveau. især ved konfidensintervaller for middelværdier.1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population. Jo bredere intervallet er. CKStat's skabelon. at vi er 95% sikre på. Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning. hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed. at den sande værdi for den estimerede størrelse ligger i dette interval. 13 .α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader. x + n ⎢ ⎦ ⎣ 3. z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n . og et intervalestimat (eller et konfidensinterval).1. ukendt populationsspredning x± t n −1. x± b) c) Normalfordeling. jo mere usikre er vi på resultatet. Sørg for at finde den rigtige skabelon. Konfidensintervallet fortæller noget om.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha. og som regel vælger vi at snakke om 95% konfidensintervaller.

med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 . {xi } og { y j } .2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2. c) To normalfordelinger med samme spredning. at populationerne har samme varians.3 Konfidensinterval for varians Vi har en normalfordelt population. og en stikprøve herfra med størrelsen n og spredningen s. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne.α / 2 s 1 2 . n1 ≥ 30 og n2 ≥ 30 . 2 2 3. Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1.1. hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste. dvs. Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store.1−α / 2 n 14 . og populationsspredningerne behøver ikke at være kendte.2. Dette gøres ved testen (4.α / 2 χ n −1.5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader.1.3. hvoraf vi har udtaget to uafhængige stikprøver.

6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer. n2 ≥ 40 . Tilsvarende formler gælder for de andre tilfælde).3. Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s. x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3. n 15 . hvoraf p har en vis egenskab. hvoraf x besider egenskaben.1. af n ≥ 40 .1.1. middelværdi μ og spredning σ. Den totale mængde i populationen er givet ved Nμ . hvoraf en andel p besidder en vis egenskab.α / 2 n N −1 (svarende til tilfælde 3. n1 . Konfindensinterval for antal med egenskab Vi har en population med N elementer. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x .1. estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1. Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3. Vi har en stikprøve på n elementer.5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer.1c. Vi har en stikprøve på n elementer. Det forudsættes.4 Konfidensinterval for andel Vi har en population af størrelsen N. hvoraf x har egenskaben.

3.2. 16 . og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.2 Stratificerede stikprøver 3.1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata.

2.2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata. 17 . og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes.3.

Stikprøven fordeles således. 18 .3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere. Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne . strata med stor spreding får et større antal end evd proportional allokering.2.3. dvs. fordele stikprøven ud på de enkelte strata. dvs. at sprednngen minimeres. på flere forskellige måder. kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser.

Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser). hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. sammen med en beregning af p-værdien. men som sagt er begge dele ikke nødvendige. så bør følgende fremgangsmåde anvendes: 1) Opstil. og undersøg evt. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . Ved test for middelværdi. varians og andel bør man undersøge. om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 . CKStat. spredning. Undersøg. der fortæller mest om situationen. nulhypotesen H 0 og alternativhypotesen H A . Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. at testen kan anvendes. Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese. disse. om alle forudsætningerne for testen faktisk gjaldt. Med mindre andet oplyses. 2) 3) Opskriv eventuelle forudsætninger for.4. eller ved at se på p-værdien. 4) 5) De fleste lærebøger skelner mellem tre metoder. Undersøg. CKStat's skabeloner anvender både KV. Beregn teststørrelsen og p-værdien. og der bør ikke være en tredie mulighed.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler. idet både test-størrelse og kritiske værdier beregnes og indtegnes. og at vedlægge udskrift af relevante bregninger i Excel. gerne vha. om 'nulværdien' ligger heri. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. 19 . Endvidere bør observationerne understøtte H A . at H 0 ikke gælder. eller gerne begge dele. ud fra opgaveteksten.og P-metoderne. Se de relevante tests for yderligere oplysninger. mens H A er. Husk at opskrive relevante formler. Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden.

Vi ønsker at sammenligne middelværdien med en fast størrelse. σ/ n Forudsætninger: a) Vi skal have en normalfordeling. eller et estimat herfor. Vi kender stikprøvestørrelsen n. (4.4.1c : Ukendt fordeling.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel.2.3.1a : Normalfordeling med kendt varians 4. alt efter nul. at efter. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.1) eller (4. om vi har en normalfordeling. stikprøvens gennemsnit x .4) b) Spredningen (eller variansen) skal være kendt. ud fra en stikprøve.3.1.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter. Der er i virkeligheden tale om hele tre forskellige tests. stor stikprøve Man kan forinden teste.1c) i stedet.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. μ 0 .2. 20 .2 Test for middelværdi. ud fra stikprøven. 4. eller anvende test (4. som jo er et estimat for middelværdien μ .4).1) eller på anden vis (4.1b : Normalfordeling med ukendt varians 4.2.2. og vi kender enten den sande spredning σ for den stokastiske variabel. test evt.2. enten grafisk (4.4. varians. dette vha. spredning og andel 4. 4. hvad vi ved om situationen. nemlig standardafvigelsen s.2.4.

n −1 (t ) t= p-værdi Accept Forkast 2 FT . s/ n Forudsætninger: Vi skal have en normalfordeling.1. stor stikprøve Selve testen: Findes i tre varianter.b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT .α − t n−1.α / 2 Husk. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4.n −1 (− | t |) 1 − FT . n–1.2. (4. alt efter nul. 1) 4. dvs.α / 2 < t − t n −1.c Ukendt fordeling.4.α / 2 > t t > t n −1.n −1 (t ) beregnes som =TDIST(ABS( t).2. test evt.3.α / 2 > t eller t > t n −1. n ≥ 40 . alt efter nul.α / 2 < t < t n −1.1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.α / 2 − t n −1. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 .4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .α / 2 − t n −1. dette vha.n −1 (t ) t < t n −1.1) eller (4. σ/ n Forudsætninger: Stikprøven skal være stor.

α / 2 kan beregnes i Excel som =CHIINV( α / 2 .2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer.α / 2 χ 2 n −1.1−α / 2 < χ 2 χ 2 < χ 2 n −1. (4. alt efter nul. 22 . at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader.2. Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1.α / 2 χ 2 n −1.α / 2 Husk.α / 2 2 n −1.1− α / 2 χ χ 2 > χ 2 n −1. Beregninger: χ 2 -fraktilen χ 2 n −1.3.6).4. Selve testen: Findes i tre varianter.1−α / 2 < χ 2 < χ 2 n −1.n-1).1−α / 2 > χ 2 eller χ 2 > χ 2 n −1.

2. om den ene middelværdi er mindst 3 større end den anden. store stikprøver Der forekommer et tal D i hypoteserne.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel.2. test evt.4.3. (4. alt efter nul. 4. skal teste. ud fra to stikprøver. 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger. ud fra stikprøven.4.2. og man vælger som regel D = 0 for at få en direkte sammenlining. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor. Men hvis man f. men ens varianser 4.3b : Normalfordeling med ukendte. μ1 ≤ μ 2 + D .og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.3c : Ukendt fordelinger. Dette tal er en konstant.3a : Normalfordelinger med kendte varianser 4. stikprøvernes gennemsnit x1 og x2 x . D = 3.eks. dvs.2. f.1) eller (4. at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt. dette vha.3.a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter. 4. at efter. 23 . hvad vi ved om situationen.eks.2. s1 eller s2 . Vi kender stikprøvestørrelserne n1 og n2 . så skal vi teste for μ1 ≥ μ 2 + 3 .4) b) Spredningerne (eller varianserne) skal være kendt. Der er i virkeligheden tale om hele tre forskellige tests.

α / 2 t > t n1 + n2 − 2. (4. test evt.α / 2 < t < t n1 + n2 − 2.b Normalfordelinger med ukendt varians.n1 + n2 − 2 (t ) t < t n1 + n2 − 2.1) eller (4.3. dette vha. Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.2.4. alt efter nul.α / 2 > t eller t > t n1 + n2 − 2.n1 + n2 − 2 (− | t |) − t n1 + n2 − 2.n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t). n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling.n1 + n2 − 2 (t ) − t n1 + n2 − 2.α / 2 − t n1 + n2 − 2.α / 2 FT .α / 2 Accept Forkast Husk.4. 1) 24 . n1+n2–2. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.α / 2 < t − t n1 + n2 − 2. fælles varians Selve testen: Findes i tre varianter.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT .4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .3.α / 2 > t 1 − FT .

Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store.2.5) 25 . at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt. (4. stor stikprøve Selve testen: Findes i tre varianter. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne.c Ukendte fordelinger.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.3. alt efter nul.2. n ≥ 40 . dvs.4. Varianserne skal være ens – dette kan testes vha.

n −1 (t ) beregnes som =TDIST(ABS( t). og vil undersøge deres differenser. Vi har gennemsnittet d heraf.og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT .n −1 (t ) 1 − FT .α / 2 < t − t n −1.α / 2 Husk. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer. xi og yi . Kort sagt.α / 2 Accept Forkast − t n −1. test evt. d i = yi − x1 .4. forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler. 1) 26 . at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader.3. n–1.2.n −1 (t ) t < t n −1. dette vha.α / 2 − t n −1.α / 2 > t eller t > t n −1. Endvidere kender vi standardspredningen s af d i 'erne.eks. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin).4 Parvis sammenligning.1) eller (4. Selve testen: Selve testen: Findes i tre varianter.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT . s/ n Forudsætninger: Vi skal have en normalfordeling.n −1 (− | t |) d < d0 d − d0 t= s/ n FT .α / 2 > t t > t n −1. vi har to rækker af n tal. (4. hvir vi har obsrveret før og efter en given ændring (f. og ønsker at undersøge middelværdien d af denne forskel.α / 2 < t < t n −1.α − t n−1. alt efter nul.4.

n2 −1.n2 −1.n2 −1. s1 > s2 .α / 2 F < Fn1 −1. n1-1. og vil teste. hvis vi evt. s2 Forudsætninger: Data skal være normalfordelt – dette testes vha. bytter om på stikprøverne.n2 −1. alt efter nul.n2 − 2.2. (4.α Husk at bytte om på de to stikprøver! Husk. Beregninger: F-fraktilen Fn1 −1.α / 2 kan beregnes i Excel som =FINV( α / 2 .6). at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 .α / 2 F > Fn1 −1. om spredningerne eller varianserne er ens. således at stikprøve 1 har den største observerede spredning. n2 − 1 frihedsgrader.5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer. Findes i tre varianter. n2-1) 27 .4. Selve testen: Beregningerne er lettere.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1.α F > Fn1 −1.3.

Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. dvs. Selve testen: Findes i hele tre varianter. ˆ x Vi har altså en stikprøve på n individer.og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. 28 . Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. hvori nogle af medlemmerne besidder en vis egenskab. som besidder egenskaben. det observerede antal x og den formodede andel p0 . p0 . Estimatet for p er da p = n . at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt.2.4. Vi ønsker at sammenligne med en fast andel. alt efter nul.6 Test for andel Anvendelse: Vi har en population. n ≥ 40 . Vi vil undersøge størrelsen af den andel p af populationen. hvoraf x har egenskaben.

Vi har altså to stikprøver på n1 og n2 individer. 29 . Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne.7 Test for forskellen mellem to andele Anvendelse: Vi har to population. at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt. n1 ≥ 40 og n2 ≥ 40 . Selve testen: Findes i hele tre varianter. som besidder egenskaben. dvs. Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 .4. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store.2. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. Vi ønsker at sammenligne disse to. hvori nogle af medlemmerne besidder en vis egenskab. alt efter nul.og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. hvoraf x1 og x2 har egenskaben. Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x.

Kan kontrolleres ves test (4.91667 792 874.2. hvor vi sammenligner den mindste og den største af stikprøvernes spredninger.5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82.. som alle er normalfordelte. én fra hver population. som fortolkes og anvendes på vanlig vis. (Kan kontrolleres ved test (4. Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = . Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197. (0. som de har samme middelværdi.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value. Excels analyse-værktøj ANOVA: SIngle factor. Forudsætninger: Alle populationerne skal være normalfordelte. Vi har en række stikprøver.638871 4. men foretages let vha.8 Variansanalyse Anvendelse: Vi har en række populationer.2.9167 df MS F F crit P-value 2 41.5)..4.471117 0.45833 0. og som alle har same varians. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre. Beregninger: Beregingerne er komplicerede.638871).1)) Alle varianserne skal være ens (varianshomogenitet).4. og vi vil afgøre. 30 .

31 .

Holder denne forudsætning ikke.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge. 32 . ikke på de tilsvarende frekvenser eller sandsynligheder. eller om der er uafhængighed i en kontigenstabel. om et givet statistisk materiale. Ei . så risikerer man. Det kan f. at de forventede antal. indtil de forventede antal kommer op over 5. at man tester og regner på de konkrete observerede (og forventede) antal. bør være mindst 5: Ei ≥ 5 .4. og dermed den tilsvarende p-værdi for lille. så kanman slå de mindste kategorier sammen.eks. være om et antal observationer af en given stokastisk variabel følger en given fordeling. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. bestående af optællinger af observationer. Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster. inddelt i kategorier. Er denne forudsætning ikke opfyldt. følger et bestemt mønster. Fælles for alle disse tests er. En generel forudsætning i disse tests er. at teststørrelsen χ 2 bliver for stor.

.. pn passer med disse observerede antal. Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0.. De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen.... p2 .1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population.00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen.. osv. Resten af de relevante størrelser vil nu blive beregnet automatisk 33 ...3. . og det observeres. være χ 2 -fordelt med n − 1 frihedsgrader. pn kendes. 'Kat2'. som er opdelt i n kategorier. Ei under nedenstående forudsætninger. dvs. en opdeling af hændelser i n kategorier. En stikprøve udtages. bør erstattes af pasende og mere beskrivende kategorititler. Andelene p1 . Denne vil. Vi vil gerne teste. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes. Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling.4. at der er Oi elementer fra kategori i. Forudsætninger Alle de forventede værdier Ei bør være mindst 5. p2 . og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . p2 . dvs. om sandsynlighederne p1 . Ei > 5 ...

mand/kvinde og ryger/ikke-ryger).eks. dvs.. H A : Der er ikke uafhængighed i kontigenstabellen. "C2".3. Ei > 5 . og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen.og søjle-overskrifterne "R1". Herefter erstattes "xxxxx" i skemaet med de faktiske. "R2" .4. observerede værdier. . Der er uafhængighed i denne inddeling? (dvs. De forventede værdier Ei beregnes.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f. bør erstattes af mere sigende kategori-titler. og "C1".. 34 . Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række.. Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader.. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5. hvorpå resten af størrelserne beregnes automatisk. hvor der er r kategorier i den ene inddeling og c i den anden.

50 zi 2 4 6 8 10 12 14 xi 35 .00 -0. Denne kan evt.00 1.50 2. så ligger disse punkter tæt omkring den bedste rette linie.4.50 0. Ved klik på OK genereres nogle mellemregninger og selve grafen.4 Andre tests 4. og der må gerne være tekst eller tomme celler i området.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie. Normalfraktildiagram 2.00 0. Dette område behøver ikke være kun en søjle eller kun en række. at vi tegner et normalfraktildiagram (eller et q-q-diagram).00 -1.50 -2. der skal undersøges.50 0 -1. justeres til.4. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på. hvori man skal markere de data. og er der tale om en normalfordeling.50 1.00 -2. hvis man ønsker. Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox.Punkterne på dette diagram repræsenterer vores datasæt.

og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.5. så vælg Tools.Add-Ins. Lineær regression 5.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj. Dette startes ved at vælge menupunkterne Tools.Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke.) Herefter fremkommer en ny dialogboks: 36 .

863636 7.1 Significance F 2.997366 R Square 0.22727 16.1E-10 Lower 95% -1. og sæt et hak i Labels.994739 Adjusted R Square 0. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0. R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.04545 0.318182 0.19426 0.13636 14.40909 22.994082 Standard Error 0.2. jo mere forklarer modellen.De afhængige variable (y-værdierne) skal angives i Input Y Range.681818 3.342547 -1.2. I Output Range skal man vælge det sted på regnearket.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.9636 403.86364 0.59091 Residuals 0.31818 -0.04545 12.9636 1512.05376 38.267045 9 406.136364 0.40909 0.22727 -0.380823 2.863636 -0. Det anbefales at sætte de resterene hakker som vist på figuren.227273 -0. En kort oversigt: Multiple R. så tag dem med.89364 2.409091 samt nogle grafer.954545 10.045455 -0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.19901 1.40909 0.31818 18. hvor beregningerne skal fremkomme.772727 5.266581 2. som anvendes i 5.715 8 2. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse. Løst sagt kan man sige.966939 Upper 95% 0.090909 0. at hvis 37 .

eks. så er modellen værdiløs. Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant".forklaringsgraden er på 0.2. 5%. P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0. variablen er insignifikant". især ved beregningen af forudsigelsesintervaller. når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. på dansk standardfejlen for residualerne. Endeligt indeholder den nederste del residualerne.2) 38 . Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter. Først står skæringen med y-aksen (eller konstantleddet). dvs. Hvis dette tal er større end f. så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error. som især er interessante. for at modellen er noget værd. Igen bør disse tal helst være under 5%.97. I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients. dernæst koefficienterne for de enkelte forklarende variable (hældningerne).

og udfra disse kan vi vha. β1 er hældningen og E er residualet. Igen tilbyder Excel at gøre dette. dvs. og denne graf kan sagtens anvendes. Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5. at punkterne er tættere på førsteaksen (dvs. hvis pukterne fordeler sig pænt omkring en ret linie.1). den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt).2. er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0. et plot af y-værdierne som funktion af xværdierne. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser. mindre residualer) for lave værdier af x. så vi behæver blot at konstatere. (4. Forudsætning 2 holder.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. om punkterne fordeler sig pænt omkring den bedste rette linie i plottet. Forudsætning 1 holder. at punkterne klumper sig sammen og følger en kurve. hvis punkterne er spredt jævnt ud over grafen. Middelværdien vil altid være 0 (dvs. Forudsætning3 holder. Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. men at punkterne i stedet spreder sig fra observation til observation. en parabel). at vi kan foretage en lineær regression. hvis der ikke er tendens til. Forudsætning 1 testes ved at tegne et linie-plot.2 Simpel lineær regression 5.eks. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) .4. so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for.5.eks. 39 . Residulerne tilbyder Excel at beregne. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f. og der ikke er tendens til f.1) teste dette.

2.997366 R Square 0.89364 2.266581 2. hvor n er antallet af datasæt i regressionen.994082 Standard Error 0. hvis der er en reel sammenhæng mellem de to variable.966939 Upper 95% 0. dvs. Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 .090909 0. og s1 s1 er standardfejlen for denne koefficient.214879 40 .1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. Teststørelsen er t-fordelt med n − 2 frihedsgrader. Significance F.380823 2. Denne p-værdi er også at finde øverst i regressionen under ANOVA.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5.994739 Adjusted R Square 0. hvis hældningen β1 ≠ 0 .9636 403.05376 38. som man beregner i regressionen.1 Significance F 2.9636 1512.715 8 2.40909 0. hvor b er den faktiske hældning.19901 1.1E-10 Lower 95% -1. Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0.267045 9 406.5.342547 -1.3) Den simple lineære model er signifikant. og i sidste kolonne er p-værdien angivet.136364 0.2. Denne størrelse er beregnet for én i regresionen under t-stat.19426 0.

997366 R Square 0.267045 9 406.380823 2.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat. dvs.05376 38.090909 0.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.136364 0. Teststørelsen er t-fordelt med n − 2 frihedsgrader. s1 og s1 er standardfejlen for denne koefficient.9636 403.n − 2 (t ) z > − zα / 2 1 − FT . om β1 ≠ 0 .342547 -1. og i sidste kolonne er p-værdien angivet. teste.994739 Adjusted R Square 0.1E-10 Lower 95% -1. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide.994082 Standard Error 0. SUMMARY OUTPUT Regression Statistics Multiple R 0.2.40909 0. men det er mere usædvanligt). hvor b1 er den faktiske hældning.1 Significance F 2.966939 Upper 95% 0.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.19901 1. Denne p-værdi er også at finde øverst i regressionen under ANOVA. b −c Teststørrelsen er t = 1 . hvor n er antallet af datasæt i regressionen. så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt.266581 2. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT .214879 41 .89364 2. om den forklarende variabel er signifikant. som man beregner i regressionen.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .19426 0.9636 1512.3 Test for hældningen Vil man undersøge størrelsen på hældningen. Significance F.5.715 8 2.

89364 2.19901 1.9636 1512.380823 2. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os.136364 0.9636 403.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0.994739 Adjusted R Square 0.n − 2 (t ) z > − zα / 2 1 − FT . men det er mere usædvanligt).267045 9 406.342547 -1.1E-10 Lower 95% -1. Teststørelsen er t-fordelt med n − 2 frihedsgrader. at alternativhypotesen skal understøtte de observerede data! For specialtilfældet.19426 0. b −c Teststørrelsen er t = 0 . H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT . som man beregner i regressionen.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.2.994082 Standard Error 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT . så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.5.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.715 8 2.05376 38.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet).40909 0.214879 42 . hvor vi undersøger. SUMMARY OUTPUT Regression Statistics Multiple R 0. hvor n er antallet af datasæt i regressionen.966939 Upper 95% 0.090909 0. og i sidste kolonne er p-værdien angivet. s0 og s0 er standardfejlen for denne koefficient. om β0 = 0 eller ej.1 Significance F 2.266581 2. hvor b0 er den faktiske skæring.997366 R Square 0.

5.α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne. Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5. som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen.2. xny . yny .2. for hvilken vi ikke har data i observationssættet. som kan aflæses i regressionen øverst som Standard Error.1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser.5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi. x-værdierne) – x ^2 43 . Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2. ud fra en given x-værdi.

+ E 5.272 ⋅10 −6 ) indikerer.. hvor den er 7.0574 0.0259 0. Bemærk.3.0020 0.5164 11 3932.9278 0.9400 R-kvadreret 0. = 0 og H A : mindst én af βi 'erne er ikke 0. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = . βi er de enkelte variables koefficienter og E er residualet.5380 57.0143 P-værdi Nedre 95% Øvre 95% 0.4970 13 33799.0038 0. at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.7054 0.4424 0.3.1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.2 Signifikans af den lineære model Den lineære model er signifikant.0328 14933.. + E hvor β0 er konstantleddet (skæringen med y-aksen) . hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable.3 Multipel lineære regression 5. Teststørrelsen for denne test er svær at beregne manuelt. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + .272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126...2607 0. hvis mindst én af koefficienterne βi ikke er 0.8837 Justeret Rkvadreret 0.8625 Standardfejl 18.0889 44 ..5043 4.4672 357.1850 0.5.0514 -254.6240 -0. dvs.en kan findes i Excels beregninger. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + .5000 t-stat -2.1315 0. sammen med den tilsvarende p-værdi. at en lav p-værdi (som nedenunder.7724 Signifikans F 7..9130 0.0141 F 41.

0020 45 .9278 -0.0514 -254.7724 Signifikans F 7.0328 14933.0143 P-værdi Nedre 95% Øvre 95% 0.8837 Justeret Rkvadreret 0.5000 t-stat -2.5380 57.0889 0.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.6240 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. hvis koefficienten βi ≠ 0 . Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i . hvis den har en reel indflydelse på Y.7054 0. dvs.1850 0. og si si er standardfejlen for denne koefficient.0259 0. hvor bi er den faktiske koefficient.5.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant. Teststørelsen er t-fordelt med n − 2 frihedsgrader.0141 F 41. Denne størrelse er beregnet for én i regresionen under t-stat.5043 4. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.0038 0.1315 0.3. som man beregner i regressionen. Bemærk. at en lav p-værdi indikerer.4970 13 33799. hvor n er antallet af datasæt i regressionen.9130 0.0574 0. og i sidste kolonne er p-værdien angivet.4424 0.2607 0.4672 357.8625 Standardfejl 18.9400 R-kvadreret 0.5164 11 3932.

så er den værdiløs. Krav 2 er absolut – hvis modellen ikke er signifikant. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller.3)). Krav 1 er et kvalitetsmål. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. Krav 3 skal helst være opfyldt.4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række.3. som bedst anvendes til at vælge mellem modeller. så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5. at hvis to forklarende variable er korrelerede. så vil de begge i modellen vise sig ved at den ene er insignifikant. Som regel kan der ske.5.3. Hvis der er flere insignifikante variable. og modellerer videre. som opfylder krav 2 og 3. 46 .