Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 . xn .2. Sandsynlighedsregning og stokastiske variable 2. dvs. k) 5 . A ∩ B = Ø . B2 . + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n. Bn udgør en klassedeling af udfaldsrummet. . x2 .. k) I Excel: = COMBIN(n... så P ( A) = P( x1 ) + P( x2 ) + . hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 ... + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte...1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 . . så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + .. så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige..

2. eller som kun kan antage adskilte værdier.2 Diskrete stokastiske variable Stokastiske variable. Generelle målinger (størrelse. som angiver et antal. man finder i tabellerne. For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder. Y ) Var (kX ) = k 2Var ( X ) . Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X . hvor k er en konstant 6 . temperatur) er som regel kontinuerte stokstiske variable. hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY . er altid diskrete. så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel. vægt.

FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1. #VALUE! #VALUE! P(X≥k) 1. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . 1. n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k. p.. p) ⎛n⎞ n! p k (1 − p) n − k .. x = 0. og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer. Bemærk.2. Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . n. hvis n > 20 . Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter.1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer. X ≈ bin(n. TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen.. n. 2. karakteriseret ved: et basiseksperiment.. 7 . TRUE) P( X = k ) =BINOMDIST( k. . uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer. p. 19 20 P(X≤k) #VALUE! #VALUE! .. nemlig at k>n. hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange. disse rækker... X er altså binomial-fordelt. så skyldes det ugyldige værdier.2.. p. n.0000 #VALUE! ... Slet evt.. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. at hvis der står #NUM! i nogle af cellerne efter beregningerne.

Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N. M og p i de violette felter..0000 #VALUE! .. Bemærk. 2.. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. .. k. disse rækker... M. x = 0. nemlig at k>n. 19 20 P(X≤k) #VALUE! #VALUE! .. Slet evt. n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ ..2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. så skyldes det ugyldige værdier. n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x. 1. M .2. #VALUE! #VALUE! P(X≥k) 1. hvis n > 20 . #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! .2. N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel. X er altså hypergeometrisk-fordelt. Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .. 8 .. men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes.. at hvis der står #NUM! i nogle af cellerne efter beregningerne. X ≈ hyp( N .

og X ≈ Po(λ ) .. ... FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1. TRUE) P( X = k ) =POISSON( k.. Bemærk.. #VALUE! P(X=k) #VALUE! #VALUE! . da vi kan forvente 60 gange så mange hændelser på en time som i et minut. X ≈ Po(λ ) . #VALUE! P(X≥k) 0. og hvis Y angiver antal hændelser i en time. λ . λ .2. 9 . at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum. er uafhængige.. 1. k = 0. 2. b) Det er meget usandsynligt..2.3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. at hvis fx. λ . Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k. e − λ λk Tæthedsfunktionen er P( X = k ) = . hvor parametren λ er det forventede antal hændelser i vores tidsrum. X angiver da antal hænder i det givne tidsrum (som gerne må være stort). 20 P(X≤k) #VALUE! #VALUE! .. X angiver antal hændelser i et minut. forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde. TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt. så er Y ≈ Po(60 ⋅ λ ) . som ikke overlapper hinanden.0000 #VALUE! ... Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.

NORMDIST(a. X 2 . TRUE) Flere ens fordelte. σ.. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . TRUE) = 1. For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ ... I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi... TRUE) = NORMDIST(b. μ. så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x. TRUE) .2.. og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 . σ. så gælder der. uafhængige stokastiske variable. μ. μ.NORMDIST(x.2. og vi skriver Z ≈ N (0. σ. X n ≈ N (μ. at gennemsnittet af disse 1 X = ( X 1 + X 2 + . μ. σ) . Standardnormalfordelingen har μ = 0 og σ = 1 . σ. n 10 . man anvender i praksis og som er tabellagt. at hvis X ≈ N (μ.4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel.1) . σ) er n ens fordelte.

Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel. ErlangS. 11 . Forskellige sandsynligheder beregnes nu. I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling. og den inverse fordeling.eks.Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler. og værdier for a og b nedenunder. som f. Φ .

så kan vi apprixomere med normalfordelingen: ⎛ k + 0. så kan vi apprixomere med normalfordelingen: ⎛ k + 0. så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n.5 Approximationer I mange situationer kan man approximere en foreling med en anden.1 .5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 .5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 . så kan vi approximere med normalfordelingen: ⎛ k + 0. p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 . ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 .2. så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N .2.5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 . Vi giver en lille oversigt: Binomialfordelingen X ≈ (n. n) a) Hvis n / N ≤ 0. S .

x± b) c) Normalfordeling. 3. at vi er 95% sikre på. x + n ⎢ ⎦ ⎣ 3. at den sande værdi for den estimerede størrelse ligger i dette interval. CKStat's skabelon.α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader. 1 − α .1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population.1. især ved konfidensintervaller for middelværdier. jo mere usikre er vi på resultatet. Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning. 13 . Konfidensintervallet fortæller noget om. Jo bredere intervallet er. og som regel vælger vi at snakke om 95% konfidensintervaller. hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed.3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). Konfidensintervaller angives altid med et vist konfidensniveau.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha. og et intervalestimat (eller et konfidensinterval). Sørg for at finde den rigtige skabelon. og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s. z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n . ukendt populationsspredning x± t n −1.

1. og populationsspredningerne behøver ikke at være kendte.3.2. dvs. hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste. 2 2 3.1.α / 2 χ n −1. {xi } og { y j } . at populationerne har samme varians. c) To normalfordelinger med samme spredning.1−α / 2 n 14 .2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer.α / 2 s 1 2 . Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store. Dette gøres ved testen (4. hvoraf vi har udtaget to uafhængige stikprøver. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2. med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 . n1 ≥ 30 og n2 ≥ 30 . Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1.3 Konfidensinterval for varians Vi har en normalfordelt population. og en stikprøve herfra med størrelsen n og spredningen s.5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader.

Vi har en stikprøve på n elementer. x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3.1.1.6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer. hvoraf x besider egenskaben. Vi har en stikprøve på n elementer. Tilsvarende formler gælder for de andre tilfælde). estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1. hvoraf p har en vis egenskab.5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer. Den totale mængde i populationen er givet ved Nμ .4 Konfidensinterval for andel Vi har en population af størrelsen N. Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3.α / 2 n N −1 (svarende til tilfælde 3. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x . n 15 . Det forudsættes. hvoraf en andel p besidder en vis egenskab.3.1. middelværdi μ og spredning σ. hvoraf x har egenskaben.1c. af n ≥ 40 . n2 ≥ 40 . Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s. Konfindensinterval for antal med egenskab Vi har en population med N elementer.1. n1 .

2. 16 .1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.2 Stratificerede stikprøver 3.3.

3. 17 . og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes.2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata.2.

Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. fordele stikprøven ud på de enkelte strata. dvs. dvs. at sprednngen minimeres.3. strata med stor spreding får et større antal end evd proportional allokering. 18 .2. Stikprøven fordeles således.3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere. kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser. på flere forskellige måder. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne .

ud fra opgaveteksten. og at vedlægge udskrift af relevante bregninger i Excel. Husk at opskrive relevante formler. gerne vha. Med mindre andet oplyses. og undersøg evt. men som sagt er begge dele ikke nødvendige. Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese. Undersøg. eller gerne begge dele. mens H A er. Undersøg. Beregn teststørrelsen og p-værdien. at H 0 ikke gælder. der fortæller mest om situationen. om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 . idet både test-størrelse og kritiske værdier beregnes og indtegnes. CKStat. varians og andel bør man undersøge. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. nulhypotesen H 0 og alternativhypotesen H A . Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden. eller ved at se på p-værdien. om 'nulværdien' ligger heri. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . og der bør ikke være en tredie mulighed. så bør følgende fremgangsmåde anvendes: 1) Opstil. spredning. om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler.4. sammen med en beregning af p-værdien. 2) 3) Opskriv eventuelle forudsætninger for. Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. Endvidere bør observationerne understøtte H A . disse. CKStat's skabeloner anvender både KV. 19 . at testen kan anvendes.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. Se de relevante tests for yderligere oplysninger. om alle forudsætningerne for testen faktisk gjaldt.og P-metoderne. Ved test for middelværdi. 4) 5) De fleste lærebøger skelner mellem tre metoder. Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser).

stikprøvens gennemsnit x .2 Test for middelværdi. 20 . at efter.4). spredning og andel 4. 4. μ 0 .3. 4. eller anvende test (4. nemlig standardafvigelsen s.1c : Ukendt fordeling.4) b) Spredningen (eller variansen) skal være kendt.2.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. enten grafisk (4. alt efter nul. hvad vi ved om situationen. Der er i virkeligheden tale om hele tre forskellige tests. Vi ønsker at sammenligne middelværdien med en fast størrelse. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. som jo er et estimat for middelværdien μ . σ/ n Forudsætninger: a) Vi skal have en normalfordeling. stor stikprøve Man kan forinden teste. Vi kender stikprøvestørrelsen n. og vi kender enten den sande spredning σ for den stokastiske variabel. ud fra stikprøven.4.2.2.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel.1) eller på anden vis (4.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter.2. eller et estimat herfor. dette vha.1a : Normalfordeling med kendt varians 4. test evt.2. varians.1.1b : Normalfordeling med ukendt varians 4. ud fra en stikprøve. (4.4. om vi har en normalfordeling.1) eller (4.4.3.1c) i stedet.2.

b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter. alt efter nul.3.α / 2 < t − t n −1.n −1 (t ) beregnes som =TDIST(ABS( t). at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.α / 2 − t n −1. σ/ n Forudsætninger: Stikprøven skal være stor.1.2. dvs. n ≥ 40 .n −1 (t ) t < t n −1.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT . n–1. dette vha.α / 2 − t n −1. stor stikprøve Selve testen: Findes i tre varianter. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader.2.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT .α − t n−1.α / 2 > t t > t n −1.n −1 (− | t |) 1 − FT .α / 2 > t eller t > t n −1.n −1 (t ) t= p-værdi Accept Forkast 2 FT . Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 .og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.α / 2 < t < t n −1. s/ n Forudsætninger: Vi skal have en normalfordeling.4.1.4. (4.α / 2 Husk.c Ukendt fordeling. 1) 4. alt efter nul. test evt.1) eller (4.

α / 2 2 n −1. (4.α / 2 kan beregnes i Excel som =CHIINV( α / 2 . alt efter nul.α / 2 χ 2 n −1.1− α / 2 χ χ 2 > χ 2 n −1.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1.n-1). Selve testen: Findes i tre varianter. Beregninger: χ 2 -fraktilen χ 2 n −1.4.1−α / 2 > χ 2 eller χ 2 > χ 2 n −1.3. at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader. Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha.α / 2 χ 2 n −1. 22 .2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer.2.1−α / 2 < χ 2 < χ 2 n −1.6).1−α / 2 < χ 2 χ 2 < χ 2 n −1.α / 2 Husk.

men ens varianser 4.2. D = 3. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor. ud fra to stikprøver.4. og man vælger som regel D = 0 for at få en direkte sammenlining.eks. Dette tal er en konstant.3c : Ukendt fordelinger. at efter. 4. Vi kender stikprøvestørrelserne n1 og n2 .2. μ1 ≤ μ 2 + D . ud fra stikprøven. (4.2.4. skal teste.2. store stikprøver Der forekommer et tal D i hypoteserne. 4. Der er i virkeligheden tale om hele tre forskellige tests.a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter.1) eller (4. så skal vi teste for μ1 ≥ μ 2 + 3 .3. f.3. Men hvis man f.4) b) Spredningerne (eller varianserne) skal være kendt. stikprøvernes gennemsnit x1 og x2 x .2. dette vha.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel. om den ene middelværdi er mindst 3 større end den anden. test evt.3b : Normalfordeling med ukendte.eks. dvs. hvad vi ved om situationen. at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt.3a : Normalfordelinger med kendte varianser 4. 23 . s1 eller s2 .og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. alt efter nul. 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger.

n1 + n2 − 2 (t ) − t n1 + n2 − 2. test evt.α / 2 > t 1 − FT . 1) 24 . (4.3.n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t).4.3.4. alt efter nul.α / 2 > t eller t > t n1 + n2 − 2.α / 2 FT .1) eller (4.n1 + n2 − 2 (t ) t < t n1 + n2 − 2.2. n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling.α / 2 t > t n1 + n2 − 2. Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.α / 2 − t n1 + n2 − 2. fælles varians Selve testen: Findes i tre varianter. dette vha.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT . n1+n2–2. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.α / 2 Accept Forkast Husk.α / 2 < t < t n1 + n2 − 2.b Normalfordelinger med ukendt varians.α / 2 < t − t n1 + n2 − 2.n1 + n2 − 2 (− | t |) − t n1 + n2 − 2.

stor stikprøve Selve testen: Findes i tre varianter. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt. Varianserne skal være ens – dette kan testes vha.c Ukendte fordelinger.5) 25 . (4. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne.2.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. n ≥ 40 .2. Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store.4. dvs. alt efter nul.3.

α / 2 > t t > t n −1.α / 2 − t n −1. dette vha.α / 2 > t eller t > t n −1. test evt. og ønsker at undersøge middelværdien d af denne forskel. Kort sagt.n −1 (t ) beregnes som =TDIST(ABS( t). og vil undersøge deres differenser.eks. Endvidere kender vi standardspredningen s af d i 'erne.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT . 1) 26 . hvir vi har obsrveret før og efter en given ændring (f. alt efter nul.4.α / 2 Accept Forkast − t n −1.α / 2 Husk. Selve testen: Selve testen: Findes i tre varianter. n–1. forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin).n −1 (− | t |) d < d0 d − d0 t= s/ n FT .og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT .α / 2 < t − t n −1. d i = yi − x1 .α / 2 < t < t n −1.α − t n−1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader.1) eller (4. s/ n Forudsætninger: Vi skal have en normalfordeling. xi og yi . vi har to rækker af n tal.n −1 (t ) t < t n −1.n −1 (t ) 1 − FT .3.4. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer. Vi har gennemsnittet d heraf.2. (4.4 Parvis sammenligning.

at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 .α Husk at bytte om på de to stikprøver! Husk. bytter om på stikprøverne. om spredningerne eller varianserne er ens. og vil teste. s1 > s2 .5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer.n2 −1. alt efter nul.n2 −1.n2 −1.6).2. Selve testen: Beregningerne er lettere. s2 Forudsætninger: Data skal være normalfordelt – dette testes vha.α F > Fn1 −1. således at stikprøve 1 har den største observerede spredning. (4.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1.n2 − 2. n2 − 1 frihedsgrader. Findes i tre varianter. hvis vi evt.3. Beregninger: F-fraktilen Fn1 −1.α / 2 F < Fn1 −1.n2 −1. n1-1.4.α / 2 kan beregnes i Excel som =FINV( α / 2 .α / 2 F > Fn1 −1. n2-1) 27 .

2. 28 .4. Selve testen: Findes i hele tre varianter. hvoraf x har egenskaben. Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. ˆ x Vi har altså en stikprøve på n individer. dvs.6 Test for andel Anvendelse: Vi har en population. n ≥ 40 . at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt. Vi vil undersøge størrelsen af den andel p af populationen. hvori nogle af medlemmerne besidder en vis egenskab. alt efter nul. det observerede antal x og den formodede andel p0 . p0 . Estimatet for p er da p = n . Vi ønsker at sammenligne med en fast andel.og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. som besidder egenskaben.

og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne. Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . Vi ønsker at sammenligne disse to. som besidder egenskaben. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store.4. Derefter kan teststørrelsen z og den relevante p-værdi aflæses.7 Test for forskellen mellem to andele Anvendelse: Vi har to population. hvoraf x1 og x2 har egenskaben. alt efter nul. hvori nogle af medlemmerne besidder en vis egenskab. Selve testen: Findes i hele tre varianter. Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x. n1 ≥ 40 og n2 ≥ 40 . dvs. 29 . at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt.2. Vi har altså to stikprøver på n1 og n2 individer.

og som alle har same varians..4. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre. som fortolkes og anvendes på vanlig vis.91667 792 874. og vi vil afgøre. (Kan kontrolleres ved test (4.638871). Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = . (0.2.2. men foretages let vha. som de har samme middelværdi. Vi har en række stikprøver. Beregninger: Beregingerne er komplicerede.471117 0.638871 4.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value. 30 .4.. Kan kontrolleres ves test (4.5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82. Excels analyse-værktøj ANOVA: SIngle factor.9167 df MS F F crit P-value 2 41.5). én fra hver population. Forudsætninger: Alle populationerne skal være normalfordelte. hvor vi sammenligner den mindste og den største af stikprøvernes spredninger. Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197.1)) Alle varianserne skal være ens (varianshomogenitet).8 Variansanalyse Anvendelse: Vi har en række populationer.45833 0. som alle er normalfordelte.

31 .

Er denne forudsætning ikke opfyldt.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge. Fælles for alle disse tests er. Det kan f. om et givet statistisk materiale. være om et antal observationer af en given stokastisk variabel følger en given fordeling. at teststørrelsen χ 2 bliver for stor. 32 . at man tester og regner på de konkrete observerede (og forventede) antal. eller om der er uafhængighed i en kontigenstabel. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. bestående af optællinger af observationer. bør være mindst 5: Ei ≥ 5 . ikke på de tilsvarende frekvenser eller sandsynligheder. inddelt i kategorier. at de forventede antal.4.eks. og dermed den tilsvarende p-værdi for lille. Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster. Holder denne forudsætning ikke. En generel forudsætning i disse tests er. Ei . så kanman slå de mindste kategorier sammen. så risikerer man. følger et bestemt mønster. indtil de forventede antal kommer op over 5.

dvs. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. være χ 2 -fordelt med n − 1 frihedsgrader. En stikprøve udtages.1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population. Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i... 'Kat2'.. osv.. p2 .3. bør erstattes af pasende og mere beskrivende kategorititler. pn passer med disse observerede antal. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen. Resten af de relevante størrelser vil nu blive beregnet automatisk 33 . at der er Oi elementer fra kategori i. p2 .00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'. Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling.4. som er opdelt i n kategorier.. Ei under nedenstående forudsætninger. og det observeres. Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0.. pn kendes. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . Denne vil. dvs.... De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen. p2 . en opdeling af hændelser i n kategorier. Vi vil gerne teste. om sandsynlighederne p1 . .. Andelene p1 . Forudsætninger Alle de forventede værdier Ei bør være mindst 5. Ei > 5 ..

observerede værdier. H A : Der er ikke uafhængighed i kontigenstabellen. Herefter erstattes "xxxxx" i skemaet med de faktiske. De forventede værdier Ei beregnes.4..og søjle-overskrifterne "R1". og "C1". Der er uafhængighed i denne inddeling? (dvs. Ei > 5 . mand/kvinde og ryger/ikke-ryger). bør erstattes af mere sigende kategori-titler.. hvor der er r kategorier i den ene inddeling og c i den anden.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f. . relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen.. 34 .. Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. hvorpå resten af størrelserne beregnes automatisk.3. dvs. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5. "R2" .eks. "C2". Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række.

4 Andre tests 4.00 -1. der skal undersøges. Denne kan evt. og er der tale om en normalfordeling.50 1. Ved klik på OK genereres nogle mellemregninger og selve grafen. justeres til.50 0 -1.4.00 -2. Dette område behøver ikke være kun en søjle eller kun en række. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på. Normalfraktildiagram 2. så ligger disse punkter tæt omkring den bedste rette linie.50 zi 2 4 6 8 10 12 14 xi 35 . hvori man skal markere de data.4. at vi tegner et normalfraktildiagram (eller et q-q-diagram). Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox.Punkterne på dette diagram repræsenterer vores datasæt.50 0.00 0. og der må gerne være tekst eller tomme celler i området.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie. hvis man ønsker.50 2.00 -0.50 -2.00 1.

Lineær regression 5. så vælg Tools. og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj. Dette startes ved at vælge menupunkterne Tools.Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke.5.) Herefter fremkommer en ny dialogboks: 36 .Add-Ins.

715 8 2.19426 0. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse.22727 -0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. I Output Range skal man vælge det sted på regnearket.22727 16.04545 0.89364 2.31818 18. så tag dem med.40909 22.05376 38. Det anbefales at sætte de resterene hakker som vist på figuren. at hvis 37 . R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1.86364 0.863636 7.De afhængige variable (y-værdierne) skal angives i Input Y Range.409091 samt nogle grafer.342547 -1.266581 2. og sæt et hak i Labels.227273 -0.318182 0. En kort oversigt: Multiple R.136364 0.966939 Upper 95% 0.997366 R Square 0.954545 10.19901 1.04545 12.9636 1512.1E-10 Lower 95% -1. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0.40909 0.31818 -0.9636 403. Løst sagt kan man sige.40909 0. som anvendes i 5. hvor beregningerne skal fremkomme.380823 2.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.2.090909 0.863636 -0.267045 9 406.2. jo mere forklarer modellen.994739 Adjusted R Square 0.1 Significance F 2.59091 Residuals 0.681818 3.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.994082 Standard Error 0.13636 14.045455 -0.772727 5.

som især er interessante. for at modellen er noget værd. når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. Hvis dette tal er større end f.97.2. variablen er insignifikant". dvs.2) 38 . Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter. så er modellen værdiløs. I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients.forklaringsgraden er på 0. dernæst koefficienterne for de enkelte forklarende variable (hældningerne). især ved beregningen af forudsigelsesintervaller. 5%. Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant". Igen bør disse tal helst være under 5%. Endeligt indeholder den nederste del residualerne. Først står skæringen med y-aksen (eller konstantleddet). på dansk standardfejlen for residualerne.eks. P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0. så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error.

eks. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0. 39 .1) teste dette. en parabel). den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt). (4.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. mindre residualer) for lave værdier af x. og der ikke er tendens til f. at vi kan foretage en lineær regression.eks. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. hvis pukterne fordeler sig pænt omkring en ret linie. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f. Residulerne tilbyder Excel at beregne. β1 er hældningen og E er residualet. Igen tilbyder Excel at gøre dette. Middelværdien vil altid være 0 (dvs. Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable. om punkterne fordeler sig pænt omkring den bedste rette linie i plottet. men at punkterne i stedet spreder sig fra observation til observation.2 Simpel lineær regression 5. Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5.5. dvs. so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for.4. så vi behæver blot at konstatere. et plot af y-værdierne som funktion af xværdierne. Forudsætning 1 holder. hvis punkterne er spredt jævnt ud over grafen. og denne graf kan sagtens anvendes.2. hvis der ikke er tendens til. og udfra disse kan vi vha. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser. Forudsætning 1 testes ved at tegne et linie-plot. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) . at punkterne klumper sig sammen og følger en kurve.1). Forudsætning 2 holder. at punkterne er tættere på førsteaksen (dvs. Forudsætning3 holder.

214879 40 . Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 . dvs.5.994082 Standard Error 0. hvor b er den faktiske hældning. Significance F. Denne størrelse er beregnet for én i regresionen under t-stat.266581 2.267045 9 406.9636 1512.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. Teststørelsen er t-fordelt med n − 2 frihedsgrader.2. og i sidste kolonne er p-værdien angivet.05376 38.19426 0.2.380823 2. Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0.715 8 2.89364 2.19901 1.1 Significance F 2. Denne p-værdi er også at finde øverst i regressionen under ANOVA.342547 -1. hvor n er antallet af datasæt i regressionen.1E-10 Lower 95% -1.997366 R Square 0.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5.3) Den simple lineære model er signifikant.136364 0.9636 403. som man beregner i regressionen. hvis der er en reel sammenhæng mellem de to variable.966939 Upper 95% 0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. og s1 s1 er standardfejlen for denne koefficient.090909 0.994739 Adjusted R Square 0.40909 0. hvis hældningen β1 ≠ 0 .

men det er mere usædvanligt).89364 2.994082 Standard Error 0. SUMMARY OUTPUT Regression Statistics Multiple R 0.997366 R Square 0.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.090909 0. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide. Significance F.966939 Upper 95% 0.342547 -1.994739 Adjusted R Square 0.19426 0.3 Test for hældningen Vil man undersøge størrelsen på hældningen. hvor n er antallet af datasæt i regressionen.1E-10 Lower 95% -1. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT .2.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .1 Significance F 2. som man beregner i regressionen.715 8 2.380823 2. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.136364 0.n − 2 (t ) z > − zα / 2 1 − FT . så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt. b −c Teststørrelsen er t = 1 . s1 og s1 er standardfejlen for denne koefficient.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. dvs.214879 41 . om β1 ≠ 0 . teste.05376 38.9636 403.5. Teststørelsen er t-fordelt med n − 2 frihedsgrader.19901 1.9636 1512.266581 2. og i sidste kolonne er p-værdien angivet. Denne p-værdi er også at finde øverst i regressionen under ANOVA. om den forklarende variabel er signifikant.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. hvor b1 er den faktiske hældning.267045 9 406.40909 0.

267045 9 406. som man beregner i regressionen.05376 38. og i sidste kolonne er p-værdien angivet.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. om β0 = 0 eller ej.380823 2.89364 2.1E-10 Lower 95% -1.9636 403.715 8 2.994082 Standard Error 0.966939 Upper 95% 0.214879 42 .516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.997366 R Square 0. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.342547 -1.40909 0. at alternativhypotesen skal understøtte de observerede data! For specialtilfældet. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0.9636 1512. hvor n er antallet af datasæt i regressionen. s0 og s0 er standardfejlen for denne koefficient.n − 2 (t ) z > − zα / 2 1 − FT .090909 0.5. SUMMARY OUTPUT Regression Statistics Multiple R 0. b −c Teststørrelsen er t = 0 .2. hvor vi undersøger. så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt. Teststørelsen er t-fordelt med n − 2 frihedsgrader.1 Significance F 2. hvor b0 er den faktiske skæring. H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT .19901 1.19426 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .136364 0.994739 Adjusted R Square 0.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet). men det er mere usædvanligt).266581 2.

5. yny . Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne.2. som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen.1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser.2.α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2. som kan aflæses i regressionen øverst som Standard Error. Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2. ud fra en given x-værdi. x-værdierne) – x ^2 43 . xny .5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi. for hvilken vi ikke har data i observationssættet.

sammen med den tilsvarende p-værdi.8625 Standardfejl 18..0143 P-værdi Nedre 95% Øvre 95% 0.. at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0. = 0 og H A : mindst én af βi 'erne er ikke 0. hvis mindst én af koefficienterne βi ikke er 0. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + . + E hvor β0 er konstantleddet (skæringen med y-aksen) . I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.3.1315 0.0020 0. Teststørrelsen for denne test er svær at beregne manuelt..9130 0. hvor den er 7. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = .5164 11 3932.0889 44 .0141 F 41.2607 0.en kan findes i Excels beregninger.4970 13 33799.2 Signifikans af den lineære model Den lineære model er signifikant.5.3 Multipel lineære regression 5.0574 0.4424 0.9400 R-kvadreret 0. Bemærk.1850 0.7054 0.0038 0. + E 5.0259 0.8837 Justeret Rkvadreret 0..272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.5043 4.4672 357.3..9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + .7724 Signifikans F 7.0514 -254. hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable..0328 14933.5000 t-stat -2.6240 -0.5380 57. dvs. at en lav p-værdi (som nedenunder. βi er de enkelte variables koefficienter og E er residualet.272 ⋅10 −6 ) indikerer.9278 0.

dvs.9130 0.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant.0889 0. og i sidste kolonne er p-værdien angivet.3. hvis den har en reel indflydelse på Y.0259 0. Denne størrelse er beregnet for én i regresionen under t-stat.9400 R-kvadreret 0.6240 0.8837 Justeret Rkvadreret 0.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.5000 t-stat -2. at en lav p-værdi indikerer.7054 0. hvis koefficienten βi ≠ 0 . hvor bi er den faktiske koefficient.0514 -254. hvor n er antallet af datasæt i regressionen. Bemærk.7724 Signifikans F 7.0020 45 . Teststørelsen er t-fordelt med n − 2 frihedsgrader. og si si er standardfejlen for denne koefficient.5.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.0141 F 41.5043 4.0574 0.9278 -0. Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i .5164 11 3932.1850 0.0328 14933.5380 57.8625 Standardfejl 18.4424 0.1315 0.4672 357.4970 13 33799. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0. som man beregner i regressionen.0143 P-værdi Nedre 95% Øvre 95% 0.0038 0.2607 0.

Hvis der er flere insignifikante variable. at hvis to forklarende variable er korrelerede. så er den værdiløs. Krav 1 er et kvalitetsmål. som opfylder krav 2 og 3. så vil de begge i modellen vise sig ved at den ene er insignifikant. Krav 3 skal helst være opfyldt.4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række. Som regel kan der ske. som bedst anvendes til at vælge mellem modeller.3. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad.3. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5.5.3)). Krav 2 er absolut – hvis modellen ikke er signifikant. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller. og modellerer videre. 46 .

Sign up to vote on this title
UsefulNot useful