Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

. k) I Excel: = COMBIN(n. så P ( A) = P( x1 ) + P( x2 ) + .. så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 . B2 .1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 . dvs. . så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + . A ∩ B = Ø .... hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 . + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n. Bn udgør en klassedeling af udfaldsrummet. så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige. xn . + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte.... Sandsynlighedsregning og stokastiske variable 2.. .2. x2 . k) 5 .

temperatur) er som regel kontinuerte stokstiske variable. man finder i tabellerne. Y ) Var (kX ) = k 2Var ( X ) . hvor k er en konstant 6 . vægt. så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel.2. er altid diskrete. hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY . Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X . Generelle målinger (størrelse. eller som kun kan antage adskilte værdier. som angiver et antal. For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder.2 Diskrete stokastiske variable Stokastiske variable.

19 20 P(X≤k) #VALUE! #VALUE! . n. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. . p. p.. karakteriseret ved: et basiseksperiment. p) ⎛n⎞ n! p k (1 − p) n − k . hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen.. så skyldes det ugyldige værdier. at hvis der står #NUM! i nogle af cellerne efter beregningerne. X er altså binomial-fordelt. n. x = 0... Bemærk. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter. hvis n > 20 ... og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer. Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . disse rækker. p.. #VALUE! #VALUE! P(X≥k) 1. n. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k.2.. nemlig at k>n.2. 2.1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer.. 7 . TRUE) P( X = k ) =BINOMDIST( k. Slet evt..0000 #VALUE! . 1. uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1. X ≈ bin(n..

. n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ .0000 #VALUE! .2... X er altså hypergeometrisk-fordelt.. k. N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel.. M og p i de violette felter.. n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x. Slet evt. M .. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! .. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. 8 .2. 2.. hvis n > 20 .2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N. 1. Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes. nemlig at k>n. Bemærk. disse rækker. x = 0. X ≈ hyp( N .. . #VALUE! #VALUE! P(X≥k) 1. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. at hvis der står #NUM! i nogle af cellerne efter beregningerne. M.. så skyldes det ugyldige værdier. 19 20 P(X≤k) #VALUE! #VALUE! .

20 P(X≤k) #VALUE! #VALUE! . TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor.. Bemærk. så er Y ≈ Po(60 ⋅ λ ) . og X ≈ Po(λ ) . at hvis fx. TRUE) P( X = k ) =POISSON( k.2. 1.. forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k. X angiver antal hændelser i et minut. . #VALUE! P(X=k) #VALUE! #VALUE! . 2. b) Det er meget usandsynligt. 9 .2. X ≈ Po(λ ) .. X angiver da antal hænder i det givne tidsrum (som gerne må være stort).. e − λ λk Tæthedsfunktionen er P( X = k ) = .. hvor parametren λ er det forventede antal hændelser i vores tidsrum. #VALUE! P(X≥k) 0.0000 #VALUE! . Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned. da vi kan forvente 60 gange så mange hændelser på en time som i et minut.. er uafhængige. λ . som ikke overlapper hinanden. λ .... #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt.. at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum.3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. og hvis Y angiver antal hændelser i en time. λ . k = 0.

og vi skriver Z ≈ N (0..NORMDIST(x. TRUE) = 1. σ. så gælder der.. For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ .2. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 .NORMDIST(a. μ. n 10 .4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel. σ) er n ens fordelte. TRUE) = NORMDIST(b.. X 2 . at hvis X ≈ N (μ. at gennemsnittet af disse 1 X = ( X 1 + X 2 + . man anvender i praksis og som er tabellagt. σ. TRUE) Flere ens fordelte. Standardnormalfordelingen har μ = 0 og σ = 1 . σ) .. μ. X n ≈ N (μ.. og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x. μ. I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi.1) . σ. TRUE) . μ. σ..2. uafhængige stokastiske variable.

11 .Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler. og den inverse fordeling. som f. ErlangS. I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling. Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel.eks. og værdier for a og b nedenunder. Forskellige sandsynligheder beregnes nu. Φ .

1 . så kan vi apprixomere med normalfordelingen: ⎛ k + 0. ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 .5 Approximationer I mange situationer kan man approximere en foreling med en anden.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 . så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n. så kan vi approximere med normalfordelingen: ⎛ k + 0. så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N . n) a) Hvis n / N ≤ 0. så kan vi apprixomere med normalfordelingen: ⎛ k + 0. p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 . Vi giver en lille oversigt: Binomialfordelingen X ≈ (n.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 .2.5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 .2. S .

Jo bredere intervallet er. 3. og et intervalestimat (eller et konfidensinterval). og som regel vælger vi at snakke om 95% konfidensintervaller. Sørg for at finde den rigtige skabelon.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha. at vi er 95% sikre på.3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n . Konfidensintervallet fortæller noget om.α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader. Konfidensintervaller angives altid med et vist konfidensniveau. 13 . Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning. x + n ⎢ ⎦ ⎣ 3. CKStat's skabelon. og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s. ukendt populationsspredning x± t n −1. x± b) c) Normalfordeling. jo mere usikre er vi på resultatet. at den sande værdi for den estimerede størrelse ligger i dette interval. hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed. 1 − α .1.1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population. især ved konfidensintervaller for middelværdier.

og en stikprøve herfra med størrelsen n og spredningen s.1.1−α / 2 n 14 . hvoraf vi har udtaget to uafhængige stikprøver.α / 2 χ n −1. 2 2 3.3 Konfidensinterval for varians Vi har en normalfordelt population.5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader. dvs.2. Dette gøres ved testen (4. {xi } og { y j } .2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer.3. hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste. med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 .1.α / 2 s 1 2 . n1 ≥ 30 og n2 ≥ 30 . at populationerne har samme varians. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2. c) To normalfordelinger med samme spredning. Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne. og populationsspredningerne behøver ikke at være kendte. Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1.

n1 . hvoraf x besider egenskaben.1.α / 2 n N −1 (svarende til tilfælde 3. Vi har en stikprøve på n elementer.1. hvoraf p har en vis egenskab.1c. hvoraf x har egenskaben. Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3.5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer.4 Konfidensinterval for andel Vi har en population af størrelsen N.6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer. Vi har en stikprøve på n elementer. Tilsvarende formler gælder for de andre tilfælde). Det forudsættes. hvoraf en andel p besidder en vis egenskab. Den totale mængde i populationen er givet ved Nμ . Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s. af n ≥ 40 . n2 ≥ 40 .3. estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1. x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3.1. middelværdi μ og spredning σ. n 15 .1. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x . Konfindensinterval for antal med egenskab Vi har en population med N elementer.

2 Stratificerede stikprøver 3. 16 .2. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.3.1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata.

3. 17 .2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes.2.

2. på flere forskellige måder.3. kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser. strata med stor spreding får et større antal end evd proportional allokering. dvs. Stikprøven fordeles således. Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne . 18 . dvs. at sprednngen minimeres. fordele stikprøven ud på de enkelte strata.3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere.

og at vedlægge udskrift af relevante bregninger i Excel. 19 . Med mindre andet oplyses. varians og andel bør man undersøge. mens H A er. så bør følgende fremgangsmåde anvendes: 1) Opstil. sammen med en beregning af p-værdien. om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler. idet både test-størrelse og kritiske værdier beregnes og indtegnes. spredning.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . Se de relevante tests for yderligere oplysninger. nulhypotesen H 0 og alternativhypotesen H A . Beregn teststørrelsen og p-værdien. gerne vha. Ved test for middelværdi. Undersøg. 2) 3) Opskriv eventuelle forudsætninger for.og P-metoderne. Undersøg. men som sagt er begge dele ikke nødvendige. eller gerne begge dele. hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. CKStat.4. Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. eller ved at se på p-værdien. disse. Endvidere bør observationerne understøtte H A . og der bør ikke være en tredie mulighed. ud fra opgaveteksten. Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser). om alle forudsætningerne for testen faktisk gjaldt. om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 . Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden. Husk at opskrive relevante formler. 4) 5) De fleste lærebøger skelner mellem tre metoder. at testen kan anvendes. at H 0 ikke gælder. og undersøg evt. Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. om 'nulværdien' ligger heri. CKStat's skabeloner anvender både KV. der fortæller mest om situationen.

varians.1c : Ukendt fordeling.2 Test for middelværdi.2.2.1a : Normalfordeling med kendt varians 4. hvad vi ved om situationen.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel.2. 4.4).3.4. at efter. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. ud fra en stikprøve.1) eller på anden vis (4. 20 .2.4. (4. Der er i virkeligheden tale om hele tre forskellige tests. dette vha. alt efter nul. eller anvende test (4. enten grafisk (4. nemlig standardafvigelsen s. test evt.4.1) eller (4. om vi har en normalfordeling. 4.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4) b) Spredningen (eller variansen) skal være kendt. som jo er et estimat for middelværdien μ . ud fra stikprøven. Vi kender stikprøvestørrelsen n.1b : Normalfordeling med ukendt varians 4. spredning og andel 4. μ 0 .2.3. og vi kender enten den sande spredning σ for den stokastiske variabel.2.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter.1c) i stedet. σ/ n Forudsætninger: a) Vi skal have en normalfordeling.1. Vi ønsker at sammenligne middelværdien med en fast størrelse. stikprøvens gennemsnit x . eller et estimat herfor. stor stikprøve Man kan forinden teste.

1.α / 2 > t eller t > t n −1. n ≥ 40 .b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT .4.1. (4. n–1.3.n −1 (− | t |) 1 − FT .n −1 (t ) t < t n −1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 .c Ukendt fordeling. σ/ n Forudsætninger: Stikprøven skal være stor.2. 1) 4.α / 2 < t − t n −1.α / 2 > t t > t n −1.n −1 (t ) t= p-værdi Accept Forkast 2 FT .4.α − t n−1. test evt.n −1 (t ) beregnes som =TDIST(ABS( t). alt efter nul.2. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. dette vha.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .α / 2 Husk.α / 2 < t < t n −1.1) eller (4. stor stikprøve Selve testen: Findes i tre varianter.α / 2 − t n −1. dvs. s/ n Forudsætninger: Vi skal have en normalfordeling.α / 2 − t n −1. alt efter nul.

1−α / 2 < χ 2 χ 2 < χ 2 n −1. (4. alt efter nul.α / 2 χ 2 n −1.4. Beregninger: χ 2 -fraktilen χ 2 n −1.α / 2 χ 2 n −1.2.6).1− α / 2 χ χ 2 > χ 2 n −1.α / 2 kan beregnes i Excel som =CHIINV( α / 2 .3.n-1). at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader.1−α / 2 < χ 2 < χ 2 n −1.α / 2 Husk. 22 . Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha.1−α / 2 > χ 2 eller χ 2 > χ 2 n −1.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1.α / 2 2 n −1.2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer. Selve testen: Findes i tre varianter.

Dette tal er en konstant. så skal vi teste for μ1 ≥ μ 2 + 3 .1) eller (4. 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger. hvad vi ved om situationen. skal teste.3b : Normalfordeling med ukendte.4) b) Spredningerne (eller varianserne) skal være kendt. dvs. Men hvis man f. 23 .2.2.eks. test evt.2. alt efter nul. men ens varianser 4. at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt. D = 3. om den ene middelværdi er mindst 3 større end den anden. at efter. dette vha.4.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel.a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter.4.3. store stikprøver Der forekommer et tal D i hypoteserne. 4. og man vælger som regel D = 0 for at få en direkte sammenlining.3a : Normalfordelinger med kendte varianser 4. f. ud fra to stikprøver.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. (4. s1 eller s2 .2.2.3. Vi kender stikprøvestørrelserne n1 og n2 . 4. Der er i virkeligheden tale om hele tre forskellige tests. ud fra stikprøven. μ1 ≤ μ 2 + D . stikprøvernes gennemsnit x1 og x2 x .eks. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor.3c : Ukendt fordelinger.

at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.2.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT . 1) 24 . Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.n1 + n2 − 2 (t ) t < t n1 + n2 − 2.b Normalfordelinger med ukendt varians.α / 2 > t eller t > t n1 + n2 − 2.α / 2 FT . fælles varians Selve testen: Findes i tre varianter. (4.α / 2 > t 1 − FT .4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .α / 2 < t < t n1 + n2 − 2.4.α / 2 Accept Forkast Husk. n1+n2–2.4.n1 + n2 − 2 (t ) − t n1 + n2 − 2.3. alt efter nul.α / 2 − t n1 + n2 − 2.1) eller (4.n1 + n2 − 2 (− | t |) − t n1 + n2 − 2. test evt.α / 2 t > t n1 + n2 − 2.n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t). dette vha.3. n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling.α / 2 < t − t n1 + n2 − 2.

5) 25 . n ≥ 40 . Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store.2.2. alt efter nul.3. dvs. (4. Varianserne skal være ens – dette kan testes vha. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.c Ukendte fordelinger. stor stikprøve Selve testen: Findes i tre varianter.4. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt.

og ønsker at undersøge middelværdien d af denne forskel. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin). s/ n Forudsætninger: Vi skal have en normalfordeling. forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler.α / 2 < t − t n −1. Endvidere kender vi standardspredningen s af d i 'erne.2.og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT .4 Parvis sammenligning. Selve testen: Selve testen: Findes i tre varianter.4.1) eller (4. test evt. 1) 26 .n −1 (t ) t < t n −1.eks. d i = yi − x1 . vi har to rækker af n tal.n −1 (t ) beregnes som =TDIST(ABS( t).n −1 (− | t |) d < d0 d − d0 t= s/ n FT . (4.4. og vil undersøge deres differenser. hvir vi har obsrveret før og efter en given ændring (f. alt efter nul.α / 2 > t eller t > t n −1.α / 2 > t t > t n −1.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .n −1 (t ) 1 − FT . dette vha.α / 2 Husk. Vi har gennemsnittet d heraf.α / 2 < t < t n −1.α / 2 − t n −1.α − t n−1. Kort sagt.3.α / 2 Accept Forkast − t n −1. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer. xi og yi . n–1.

n2 −1. n1-1. (4.2. s2 Forudsætninger: Data skal være normalfordelt – dette testes vha.α / 2 F > Fn1 −1.n2 −1. alt efter nul.n2 −1. s1 > s2 .α / 2 F < Fn1 −1. om spredningerne eller varianserne er ens. n2 − 1 frihedsgrader. Selve testen: Beregningerne er lettere.α Husk at bytte om på de to stikprøver! Husk. Beregninger: F-fraktilen Fn1 −1. Findes i tre varianter. og vil teste.n2 −1. n2-1) 27 .5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer.6). således at stikprøve 1 har den største observerede spredning. bytter om på stikprøverne. at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 .n2 − 2.α F > Fn1 −1. hvis vi evt.α / 2 kan beregnes i Excel som =FINV( α / 2 .4.3.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1.

ˆ x Vi har altså en stikprøve på n individer. Estimatet for p er da p = n .og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. Vi ønsker at sammenligne med en fast andel.4.2. Vi vil undersøge størrelsen af den andel p af populationen. Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. som besidder egenskaben. Selve testen: Findes i hele tre varianter.6 Test for andel Anvendelse: Vi har en population. dvs. at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt. Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor. 28 . n ≥ 40 . p0 . alt efter nul. det observerede antal x og den formodede andel p0 . hvoraf x har egenskaben. hvori nogle af medlemmerne besidder en vis egenskab.

n1 ≥ 40 og n2 ≥ 40 . hvori nogle af medlemmerne besidder en vis egenskab. dvs. hvoraf x1 og x2 har egenskaben. Vi ønsker at sammenligne disse to. Vi har altså to stikprøver på n1 og n2 individer. 29 .4. Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne. Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x. alt efter nul. Selve testen: Findes i hele tre varianter. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt.2. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store. som besidder egenskaben.7 Test for forskellen mellem to andele Anvendelse: Vi har to population.og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.

638871).8 Variansanalyse Anvendelse: Vi har en række populationer.4. Beregninger: Beregingerne er komplicerede. (Kan kontrolleres ved test (4. 30 .471117 0.91667 792 874. og vi vil afgøre... Kan kontrolleres ves test (4. som alle er normalfordelte.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value.2.9167 df MS F F crit P-value 2 41.5). (0. Excels analyse-værktøj ANOVA: SIngle factor. hvor vi sammenligner den mindste og den største af stikprøvernes spredninger. som fortolkes og anvendes på vanlig vis. og som alle har same varians. Forudsætninger: Alle populationerne skal være normalfordelte.638871 4.1)) Alle varianserne skal være ens (varianshomogenitet). én fra hver population.5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82. Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197.4.45833 0. Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = . som de har samme middelværdi.2. men foretages let vha. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre. Vi har en række stikprøver.

31 .

at teststørrelsen χ 2 bliver for stor. Ei . bestående af optællinger af observationer. Det kan f. om et givet statistisk materiale. Holder denne forudsætning ikke. indtil de forventede antal kommer op over 5. ikke på de tilsvarende frekvenser eller sandsynligheder. inddelt i kategorier. En generel forudsætning i disse tests er. bør være mindst 5: Ei ≥ 5 . følger et bestemt mønster. 32 .eks.4. at de forventede antal. Fælles for alle disse tests er. og dermed den tilsvarende p-værdi for lille. så kanman slå de mindste kategorier sammen. så risikerer man. være om et antal observationer af en given stokastisk variabel følger en given fordeling. Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster. at man tester og regner på de konkrete observerede (og forventede) antal. Er denne forudsætning ikke opfyldt. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. eller om der er uafhængighed i en kontigenstabel.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge.

'Kat2'.. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes..4. dvs.. Ei > 5 . at der er Oi elementer fra kategori i.3.00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'. p2 . .. p2 . dvs. Denne vil. Vi vil gerne teste. Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i.1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population.. En stikprøve udtages. om sandsynlighederne p1 . pn kendes. p2 .. Forudsætninger Alle de forventede værdier Ei bør være mindst 5. osv. Ei under nedenstående forudsætninger.. bør erstattes af pasende og mere beskrivende kategorititler.. og det observeres. Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling. pn passer med disse observerede antal. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0. være χ 2 -fordelt med n − 1 frihedsgrader.. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen... som er opdelt i n kategorier. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes. Resten af de relevante størrelser vil nu blive beregnet automatisk 33 . en opdeling af hændelser i n kategorier. De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen. Andelene p1 .

.. dvs. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes.3. observerede værdier. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5. og "C1". . H A : Der er ikke uafhængighed i kontigenstabellen.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f.eks. 34 . "C2". Ei > 5 .. hvor der er r kategorier i den ene inddeling og c i den anden.. Der er uafhængighed i denne inddeling? (dvs. Herefter erstattes "xxxxx" i skemaet med de faktiske.4. Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader. hvorpå resten af størrelserne beregnes automatisk. Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række. De forventede værdier Ei beregnes. bør erstattes af mere sigende kategori-titler. relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen. "R2" . mand/kvinde og ryger/ikke-ryger).og søjle-overskrifterne "R1".

Denne kan evt.00 -0. Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox. og der må gerne være tekst eller tomme celler i området. Normalfraktildiagram 2.Punkterne på dette diagram repræsenterer vores datasæt.00 -2.00 1.00 0. Dette område behøver ikke være kun en søjle eller kun en række. hvis man ønsker. Ved klik på OK genereres nogle mellemregninger og selve grafen. der skal undersøges. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på.4.00 -1.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie.50 0.50 1. og er der tale om en normalfordeling.4.50 2.50 -2. så ligger disse punkter tæt omkring den bedste rette linie. hvori man skal markere de data. justeres til. at vi tegner et normalfraktildiagram (eller et q-q-diagram).4 Andre tests 4.50 zi 2 4 6 8 10 12 14 xi 35 .50 0 -1.

) Herefter fremkommer en ny dialogboks: 36 . så vælg Tools.5.Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke. Lineær regression 5.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj. og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.Add-Ins. Dette startes ved at vælge menupunkterne Tools.

så tag dem med. R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1.1 Significance F 2.19426 0.681818 3.40909 0. som anvendes i 5.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.380823 2.04545 0.9636 403.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.2.13636 14. Løst sagt kan man sige.090909 0. jo mere forklarer modellen.136364 0. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0.227273 -0.9636 1512.2.40909 22.994739 Adjusted R Square 0.772727 5. Det anbefales at sætte de resterene hakker som vist på figuren.715 8 2.863636 7.22727 16.267045 9 406.318182 0.De afhængige variable (y-værdierne) skal angives i Input Y Range.863636 -0.342547 -1.1E-10 Lower 95% -1. I Output Range skal man vælge det sted på regnearket.409091 samt nogle grafer.994082 Standard Error 0.59091 Residuals 0.05376 38.266581 2. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse.31818 -0.86364 0.966939 Upper 95% 0.31818 18.045455 -0.954545 10. hvor beregningerne skal fremkomme.04545 12.89364 2. En kort oversigt: Multiple R.22727 -0. at hvis 37 . og sæt et hak i Labels.997366 R Square 0.19901 1.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.40909 0.

dernæst koefficienterne for de enkelte forklarende variable (hældningerne). Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant". for at modellen er noget værd. Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable. variablen er insignifikant". Endeligt indeholder den nederste del residualerne.97. 5%. I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients. P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0.forklaringsgraden er på 0.2) 38 . så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error. Først står skæringen med y-aksen (eller konstantleddet). Hvis dette tal er større end f. Igen bør disse tal helst være under 5%. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter.2. især ved beregningen af forudsigelsesintervaller.eks. når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. så er modellen værdiløs. som især er interessante. dvs. på dansk standardfejlen for residualerne.

og denne graf kan sagtens anvendes. så vi behæver blot at konstatere. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. Middelværdien vil altid være 0 (dvs. at punkterne klumper sig sammen og følger en kurve.5. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser. og der ikke er tendens til f. Residulerne tilbyder Excel at beregne. og udfra disse kan vi vha. β1 er hældningen og E er residualet. den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt). Forudsætning 2 holder. hvis pukterne fordeler sig pænt omkring en ret linie. Forudsætning3 holder.4. 39 . Forudsætning 1 holder. (4.1). hvis der ikke er tendens til. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) .1) teste dette.eks. at vi kan foretage en lineær regression. mindre residualer) for lave værdier af x. Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5.eks. Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. hvis punkterne er spredt jævnt ud over grafen. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f. om punkterne fordeler sig pænt omkring den bedste rette linie i plottet.2 Simpel lineær regression 5. en parabel). et plot af y-værdierne som funktion af xværdierne.2. men at punkterne i stedet spreder sig fra observation til observation. so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for. at punkterne er tættere på førsteaksen (dvs. Forudsætning 1 testes ved at tegne et linie-plot. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. Igen tilbyder Excel at gøre dette. er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable. dvs.

19426 0.997366 R Square 0.342547 -1.715 8 2.966939 Upper 95% 0. hvis hældningen β1 ≠ 0 .1E-10 Lower 95% -1.267045 9 406. Significance F. og i sidste kolonne er p-værdien angivet.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. som man beregner i regressionen. dvs.89364 2.214879 40 .380823 2.266581 2.9636 1512.090909 0.2.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5.40909 0. hvor n er antallet af datasæt i regressionen. Denne størrelse er beregnet for én i regresionen under t-stat. og s1 s1 er standardfejlen for denne koefficient. Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 . Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0.9636 403.05376 38.3) Den simple lineære model er signifikant. Teststørelsen er t-fordelt med n − 2 frihedsgrader.994739 Adjusted R Square 0.19901 1.5.136364 0. Denne p-værdi er også at finde øverst i regressionen under ANOVA. hvor b er den faktiske hældning. hvis der er en reel sammenhæng mellem de to variable.2.994082 Standard Error 0.1 Significance F 2.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.

994082 Standard Error 0. om den forklarende variabel er signifikant. hvor b1 er den faktiske hældning.342547 -1. Teststørelsen er t-fordelt med n − 2 frihedsgrader.1E-10 Lower 95% -1.89364 2. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide.966939 Upper 95% 0.715 8 2.090909 0.380823 2.5.136364 0.997366 R Square 0.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .3 Test for hældningen Vil man undersøge størrelsen på hældningen. teste.9636 1512.2. om β1 ≠ 0 .n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.994739 Adjusted R Square 0. så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. Denne p-værdi er også at finde øverst i regressionen under ANOVA. som man beregner i regressionen.214879 41 .516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403. hvor n er antallet af datasæt i regressionen.n − 2 (t ) z > − zα / 2 1 − FT . SUMMARY OUTPUT Regression Statistics Multiple R 0.19901 1.266581 2. dvs. b −c Teststørrelsen er t = 1 . men det er mere usædvanligt).40909 0.267045 9 406.9636 403.19426 0. Significance F. og i sidste kolonne er p-værdien angivet. s1 og s1 er standardfejlen for denne koefficient. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT .1 Significance F 2. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.05376 38.

214879 42 .05376 38.342547 -1. Teststørelsen er t-fordelt med n − 2 frihedsgrader. om β0 = 0 eller ej.9636 1512.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.994082 Standard Error 0.n − 2 (t ) z > − zα / 2 1 − FT .n −2 (− | t |) − zα / 2 < z < zα / 2 FT .5. s0 og s0 er standardfejlen for denne koefficient. hvor b0 er den faktiske skæring.19426 0. så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt. hvor vi undersøger. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat. at alternativhypotesen skal understøtte de observerede data! For specialtilfældet.19901 1.9636 403. b −c Teststørrelsen er t = 0 . som man beregner i regressionen.89364 2. H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT .994739 Adjusted R Square 0.136364 0. hvor n er antallet af datasæt i regressionen.715 8 2.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet).267045 9 406. SUMMARY OUTPUT Regression Statistics Multiple R 0.1E-10 Lower 95% -1.966939 Upper 95% 0.266581 2.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0.090909 0.40909 0. og i sidste kolonne er p-værdien angivet. men det er mere usædvanligt).380823 2.997366 R Square 0.2.1 Significance F 2.

5. Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2. for hvilken vi ikke har data i observationssættet. x-værdierne) – x ^2 43 .5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne.1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser. ud fra en given x-værdi. xny . yny .α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2. som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen.2.2. Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5. som kan aflæses i regressionen øverst som Standard Error.

5.7054 0.3.0328 14933. sammen med den tilsvarende p-værdi.1850 0.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. hvis mindst én af koefficienterne βi ikke er 0.2 Signifikans af den lineære model Den lineære model er signifikant. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = ..0514 -254.9400 R-kvadreret 0.5043 4. Teststørrelsen for denne test er svær at beregne manuelt. + E hvor β0 er konstantleddet (skæringen med y-aksen) . hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable..4970 13 33799.5000 t-stat -2..0574 0.0020 0.6240 -0.0141 F 41.en kan findes i Excels beregninger. hvor den er 7. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + . at en lav p-værdi (som nedenunder.0143 P-værdi Nedre 95% Øvre 95% 0.3.2607 0. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.3 Multipel lineære regression 5. = 0 og H A : mindst én af βi 'erne er ikke 0.1315 0.5380 57. Bemærk.8837 Justeret Rkvadreret 0.. at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable.4424 0.5164 11 3932.0038 0.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126. dvs.8625 Standardfejl 18..9130 0. βi er de enkelte variables koefficienter og E er residualet. + E 5. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + .0259 0.0889 44 .9278 0.7724 Signifikans F 7.4672 357.272 ⋅10 −6 ) indikerer..

5164 11 3932. som man beregner i regressionen. Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i .8625 Standardfejl 18.8837 Justeret Rkvadreret 0. hvis koefficienten βi ≠ 0 .7724 Signifikans F 7.4970 13 33799.4672 357.0889 0.2607 0. hvis den har en reel indflydelse på Y. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0.0514 -254.5043 4.6240 0.1315 0.0328 14933. og si si er standardfejlen for denne koefficient.7054 0.0143 P-værdi Nedre 95% Øvre 95% 0. Teststørelsen er t-fordelt med n − 2 frihedsgrader.4424 0. Denne størrelse er beregnet for én i regresionen under t-stat.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.0574 0.0020 45 .9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. hvor bi er den faktiske koefficient.5000 t-stat -2.5380 57.1850 0. og i sidste kolonne er p-værdien angivet.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant.0038 0.9400 R-kvadreret 0.9278 -0.0141 F 41. dvs. at en lav p-værdi indikerer.3.5.0259 0. hvor n er antallet af datasæt i regressionen.9130 0. Bemærk.

Krav 1 er et kvalitetsmål. at hvis to forklarende variable er korrelerede.3)). som opfylder krav 2 og 3. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. 46 .4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række. så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller. Hvis der er flere insignifikante variable. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad.3. Som regel kan der ske. så er den værdiløs. Krav 2 er absolut – hvis modellen ikke er signifikant.5. så vil de begge i modellen vise sig ved at den ene er insignifikant.3. Krav 3 skal helst være opfyldt. og modellerer videre. som bedst anvendes til at vælge mellem modeller.

Sign up to vote on this title
UsefulNot useful