You are on page 1of 46

Formelsamling i statistik

- med fokus p anvendelsen af Excel, og isr p anvendelsen af CKStat


af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datast 1.2 Grupperede datast 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hndelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprver 3.1.1 Konfidensinterval for middelvrdi 3.1.2 Konfidensinterval for forskellen mellem middelvrdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale strrelser 3.2 Stratificerede stikprver 3.2.1 Stratificeret stikprve med middelvrdi 3.2.2 Stratificeret stikprve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelvrdi, spredning, varians og andel 4.2.1 Test for middelvrdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelvrdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprver 4.2.4 Parvis sammenligning, forskellen p middelvrdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen p to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( 2 -tests) 4.3.1 Test for reprsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhngighed i kontigenstabeller

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Liner regression 5.1 Excels analysevrktj 5.2 Simpel liner regression 5.2.1 Opstilling af og forudstninger for den linere model 5.2.2 Signifikans af den linere model 5.2.3 Tests for hldningen 5.2.4 Tests for skringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel liner regression 5.3.1 Opstilling af den linere model 5.3.2 Signifikans af den linere model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste linere model

1. Deskriptiv statistik 1.1 Ugrupperede datast


Vi har et datast x1 , x2 ,..., xn bestende af n observationer. Ud fra disse kan vi beregne flgende strrelser: Gennemsnittet:

x=

1 n xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi x ) = ( xi nx 2 ) n 1 i =1 n 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi x ) = ( xi nx 2 ) n 1 i =1 n 1 i =1 i Excel: STDEV( datablok )

Excel-vrktjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstende og andre beregninger.

1.2 Grupperede datast


Vi har et datast bestende af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en strrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne flgende strrelser: Gennemsnittet: 1 n x = f i xi n i =1 s2 = eller 1 n x = mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi x ) = ( f i xi nx 2 ) n 1 i =1 n 1 i =1 n n 1 1 2 s2 = f i (mi x ) = ( f i ,i nx 2 ) n 1 i =1 n 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 fi ( xi x ) = n 1 ( fi xi nx 2 ) n 1 i =1 i =1 n 1 n 1 2 f i (mi x ) = ( f i mi nx 2 ) n 1 i =1 n 1 i =1

eller

2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hndelser


Hvis hndelsen A bestr af udfaldene x1 , x2 , ..., xn , s P ( A) = P( x1 ) + P( x2 ) + ... + P( xn )
P ( A B) = P( A) + P( B ) P( A B) Hvis A og B er disjunkte, dvs. A B = , s P ( A B) = P( A) + P( B) P ( A ) = 1 P( A) Hndelserne A og B er uafhngige, hvis og kun hvis P ( A B) = P( A) P( B) Betingede sandsynligheder: P( A B) P( A | B) = (hvis P( B) = 0 , s er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) (Bayes' formel) P( A) Hvis B1 , B2 , ... Bn udgr en klassedeling af udfaldsrummet, s er P ( A) = P( B1 ) P( A | B1 ) + P( B2 ) P( A | B2 ) + ... + P( Bn ) P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n k )! Antal kombinationer: (binomial-koefficienter) n n! n Ck = = x k!(n k )!

I Excel: =PERMUT(n, k)

I Excel: = COMBIN(n, k)

2.2 Diskrete stokastiske variable


Stokastiske variable, som angiver et antal, eller som kun kan antage adskilte vrdier, er altid diskrete. Generelle mlinger (strrelse, vgt, temperatur) er som regel kontinuerte stokstiske variable. For en diskret stokastisk variabel X har vi: tthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X x) = f X ( y )
y x

Som regel er det de kumulerede sandsynligheder, man finder i tabellerne, s derfor glder (hvis X kun kan antage heltallige vrdier)
P ( X = x) = P ( X x) P( X x 1) = FX ( x) FX ( x 1) P ( X x) = 1 P( X < x) = 1 P ( X x 1) = 1 FX ( x 1)
P (a X b) = P ( X b) P ( X a 1) = FX (b) FX (a 1)

men i praksis er det nok lettere at beregne disse vrdier i Excel. Middelvrdi: EX = X = x P ( X = x) Varians: Var ( X ) = x 2 P( X = x) ( EX ) 2 = E ( X 2 ) ( EX ) 2 Spredning:

X = Var ( X ) = E ( X 2 ) ( EX ) 2 Der glder flgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k EX E ( X Y ) = EX EY , hvor k er en konstant

Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y ) Var ( X Y ) = Var ( X ) + Var (Y ) 2Cov( X , Y ) Var (kX ) = k 2Var ( X ) , hvor k er en konstant

2.2.1 Binomialfordelingen
Binomialfordelingen anvendes enten ved stikprver med tilbagelgning populationen bestr af n elementer, og andelen af 'gunstige' elementer kaldes p eller i de skaldte binomialsituationer, karakteriseret ved: et basiseksperiment, hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange, uafhngigt af hinanden (n kaldes antalsparametren) I begge tilflde angiver X antallet af successer eller gunstige elementer. X er alts binomial-fordelt, X bin(n, p) n n! p k (1 p) n k , x = 0, 1, 2, ..., n Tthedsfunktionen P ( X = k ) = p k (1 p) n k = k k!(n k )! Middelvrdien er EX = np Spredningen er
( X ) = np (1 p )

I Excel findes binomial-sandsynlighederne ved formlerne: P( X k ) =BINOMDIST( k, n, p, TRUE) P( X = k ) =BINOMDIST( k, n, p, FALSE) P ( X k ) = 1 P( X k 1) =1 BINOMDIST( k1, n, p, TRUE) Se endvidere CKStat's vrktj: Beregninger i binomialfordelingen.
Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelvrdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 ... 19 20 P(Xk) #VALUE! #VALUE! ... #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! ... #VALUE! #VALUE! P(Xk) 1,0000 #VALUE! ... #VALUE! #VALUE! EX= Var(X)= (X)=

indtast n indtast p #VALUE! #VALUE! #VALUE!

Konlusion: Skriv din konklusion her

Indtast vrdierne af n og p i de violette felter. Alle sandsynligheder vil s blive regnet ud i tabellen nedenfor. Bemrk, at hvis der str #NUM! i nogle af cellerne efter beregningerne, s skyldes det ugyldige vrdier, nemlig at k>n. Slet evt. disse rkker. Om ndvendigt kan man indstte flere rkker og kopiere rkkerne i tabellen ned, hvis n > 20 .

2.2.2 Den hypergeometriske fordeling


Den hypergeometriske fordeling anvendes ved stikprver uden tilbagelgning populationen bestr af N elementer heraf er M elementer gunstige stikprven er p n elementer X angiver antallet af gunstige elementer. X er alts hypergeometrisk-fordelt, X hyp( N , M , n) M N M k nk , x = 0, 1, 2, ..., n Tthedsfunktionen er P ( X = k ) = N n M M (med p = ) Middelvrdien er EX = n = np N N M M M N n N n (med p = ) Spredningen er ( X ) = n (1 ) = np (1 p ) N N N N 1 N 1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x, k, M, N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel, men CKStat's vrktj Beregninger i den hypergeometriske fordeling kan med fordel anvendes.
Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstrrelse N= antal defekte i alt M= stikprvestrrelsen n= Middelvrdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 ... 19 20 P(Xk) #VALUE! #VALUE! ... #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! ... #VALUE! #VALUE! P(Xk) 1,0000 #VALUE! ... #VALUE! #VALUE! EX= Var(X)= (X)=

indtast N indtast M indtast n #VALUE! #VALUE! #VALUE!

Konlusion: Skriv din konklusion her

Indtast vrdierne af N, M og p i de violette felter. Alle sandsynligheder vil s blive regnet ud i tabellen nedenfor. Bemrk, at hvis der str #NUM! i nogle af cellerne efter beregningerne, s skyldes det ugyldige vrdier, nemlig at k>n. Slet evt. disse rkker. Om ndvendigt kan man indstte flere rkker og kopiere rkkerne i tabellen ned, hvis n > 20 .

2.2.3 Poisson-fordelingen
Poisson-fordelingen anvendes til at mle antal indtrufne hndelser i et givet tidsrum, forudsat at disse hndelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hndelse kun afhngig af tidsrummets strrelse og proportional med tidsrummets lngde. b) Det er meget usandsynligt, at der sker mere end en hndelse i samme lille tidsrum c) Antallet af hndelser i to tidsrum, som ikke overlapper hinanden, er uafhngige.

X angiver da antal hnder i det givne tidsrum (som gerne m vre stort). X Po( ) , hvor parametren er det forventede antal hndelser i vores tidsrum.
Bemrk, at hvis fx. X angiver antal hndelser i et minut, og X Po( ) , og hvis Y angiver antal hndelser i en time, s er Y Po(60 ) , da vi kan forvente 60 gange s mange hndelser p en time som i et minut. e k Tthedsfunktionen er P( X = k ) = , k = 0, 1, 2, ... k! EX = Middelvrdien er Spredningen er ( X ) =

I Excel findes Poisson-sandsynlighederne ved formlerne: P( X k ) =POISSON( k, , TRUE) P( X = k ) =POISSON( k, , FALSE) P ( X k ) = 1 P( X k 1) =1 POISSON( k1, , TRUE) Se endvidere CKStat's vrktj: Beregninger i Poissonfordelingen:
Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder = Middelvrdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 ... 20 P(Xk) #VALUE! #VALUE! ... #VALUE! P(X=k) #VALUE! #VALUE! ... #VALUE! P(Xk) 0,0000 #VALUE! ... #VALUE! EX= Var(X)= (X)=

indtast #VALUE! #VALUE! #VALUE!

Konlusion: Skriv din konklusion her

Indtast vrdien af i det violette felt. Alle sandsynligheder vil s blive regnet ud i tabellen nedenfor. Om ndvendigt kan man indstte flere rkker og kopiere rkkerne i tabellen ned.

2.2.4 Normalfordelingen
Normalfordelingen er en kontinuert stokastisk variabel, og derfor glder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X x) = P ( X > x) = 1 P ( X x) = 1 P ( X < x) Normalfordelingen beskrives ved to parametre: middelvrdien og spredningen . Standardnormalfordelingen har = 0 og = 1 , og vi skriver Z N (0,1) . For standardnormalfordelingen glder 1 12 x 2 f Z ( x) = ( x) = e (tthedsfunktionen) 2 x 1 12 t 2 (fordelingsfunktionen) FZ ( x) = ( x) = e dt 2 Det er funktionen , man anvender i praksis og som er tabellagt. I Excel: (x) =NORMSDIST(x) 1 ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi, at hvis X N (, ) , s x FX ( x) = P( X x) = x P ( X x) = 1 P ( X x ) = 1 a b P ( a X b) = P ( X b) P ( X a ) = I Excel: P( X x) P( X x) P ( a X b) = NORMDIST(x, , , TRUE) = 1- NORMDIST(x, , , TRUE) = NORMDIST(b, , , TRUE) - NORMDIST(a, , , TRUE)

Flere ens fordelte, uafhngige normalfordelte sokastiske variable (stikprver) Hvis X 1 , X 2 ,..., X n N (, ) er n ens fordelte, uafhngige stokastiske variable, s glder der, at gennemsnittet af disse 1 X = ( X 1 + X 2 + ... + X n ) n er normalfordelt med middelvrdien og spredningen . n

10

Se CKStats skabelon Beregninger i Normalfordelingen:


Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelvrdien spredningen Beregninger af sandsynligheder for X: a= P(Xa) P(Xa) a= b= P(aXb) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE!

= =

indtast indtast

Indtast middelvrdien og spredningen i de frste violette celler, og vrdier for a og b nedenunder. Forskellige sandsynligheder beregnes nu. I forbindelse med hypotesetest fr man brug for tabeller for bde den kumulerede standardnormalfordeling, , og den inverse fordeling. Disse kan enten beregnes i Excel som ovenfor eller sls op i en statistik tabel, som f.eks. ErlangS.

11

2.2.5 Approximationer
I mange situationer kan man approximere en foreling med en anden. Vi giver en lille oversigt:
Binomialfordelingen X (n, p) a) Hvis n 50 og np (1 p) 9 , s kan vi apprixomere med normalfordelingen:

k + 0,5 np P ( X k ) = np(1 p) b) Hvis n 50 og np 7 , s kan vi approximere med Poissonfordelingen: Y Po(np) og P ( X k ) = P(Y k )

Den hypergeometriske fordeling X hyp( N , S , n) a) Hvis n / N 0,1 , s kan vi apprixomere med binomialforelingen: S Y bin(n, ) og P ( X k ) = P(Y k ) N

b)

Hvis n 50 og np (1 p) 9 , s kan vi apprixomere med normalfordelingen:


k + 0,5 np P ( X k ) = np(1 p)

Poisson-fordelingen X Po( ) Hvis 10 , s kan vi approximere med normalfordelingen:

k + 0,5 P ( X k ) =

12

3 Konfidensintervaller
Generelt angiver vi et estimat for en strrelse p to mder som et punktestimat (et tal), og et intervalestimat (eller et konfidensinterval). Konfidensintervallet fortller noget om, hvor sikre vi er p estimatets strrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed, at vi er 95% sikre p, at den sande vrdi for den estimerede strrelse ligger i dette interval. Jo bredere intervallet er, jo mere usikre er vi p resultatet. Konfidensintervaller angives altid med et vist konfidensniveau, 1 , og som regel vlger vi at snakke om 95% konfidensintervaller. z Formlerne nedenfor angives p flgende mde: x / 2 n men man kunne lige s godt skrive konfidensintervallet som x z / 2 z x + /2 n n eller z / 2 z / 2 x n ; x + n

3.1 Simple stikprver


Samtlige konfidensintervaller i deenne sektion kan udregnes vha. CKStat's skabelon. Srg for at finde den rigtige skabelon, isr ved konfidensintervaller for middelvrdier.

3.1.1 Konfidensintervaller for middelvrdi


Vi har en stikprve for en population, og kender stikprvens strrelse n og gennemsnit x (som jo er punktestimatet for middelvrdien) og enten spredningen for populationen eller stikprvens standardspredning s. Der er tre tilflde:
a) Normalfordeling med kendt populationsspredning z x /2 n Stor stikprve ( n 30)
z / 2 s n Der stilles alts ingen krav til fordelingen eller til kendskab til populationens spredning. x

b)

c)

Normalfordeling, ukendt populationsspredning

t n 1, / 2 s n

Vi erstatter alts her normalfordelingsfraktilen med en t-fraktil med n 1 frihedsgrader.

13

3.1.2 Konfidensinterval for forskellen mellem middelvrdier


Her har vi to populationer, hvoraf vi har udtaget to uafhngige stikprver, {xi } og { y j } , med vrdierne:

stikprvestrrelse gennemsnit standardafvigelse

population I n1 x1 s1

population II n2 x2 s2

Vi vil opstille et konfidensinterval for forskellen p middelvrdierne 1 2 . Der er tre tilflde:


a) Populationerne er normalfordelte med kendte populationsspredninger 1 og 2

( x1 x2 ) z / 2
b)

1 2 + n1 n2
2

Stikprverne er store, dvs. n1 30 og n2 30 .

( x1 x2 ) z / 2

s1 s2 + n1 n2

Der stilles ingen krav til fordelingerne, og populationsspredningerne behver ikke at vre kendte.
c) To normalfordelinger med samme spredning.

(n1 1) s1 + (n2 1) s2 n +n ( x1 x2 ) t nx + x y 2, / 2 s 1 2 , hvor s = n1 n2 n1 + n2 2 Vi br forinden teste, at populationerne har samme varians. Dette gres ved testen (4.2.5 Vi anvender her t-fordelingen med n1 + n2 2 frihedsgrader.
2 2

3.1.3 Konfidensinterval for varians


Vi har en normalfordelt population, og en stikprve herfra med strrelsen n og spredningen s. Konfidensintervallet for variansen 2 er da
(n 1) s 2 (n 1) s 2 < 2 < 2 2 1, / 2 n 1,1 / 2 n

14

3.1.4 Konfidensinterval for andel


Vi har en population af strrelsen N, hvoraf en andel p besidder en vis egenskab. Vi har en stikprve p n elementer, hvoraf x besider egenskaben. Det forudsttes, af n 40 . x p= Punktestimatet for p er n p (1 p ) Intervalestimatet for p er p z / 2 n 1

3.1.5 Konfidensinterval for forskel mellem andele


To stikprver p n1 og n2 elementer, n1 , n2 40 . Forskellen p to populationsandele kan da intervalestimeres ved p ( p 1) p2 ( p2 1) + ( p1 p2 ) z / 2 1 1 n1 1 n2 1

3.1.6 Konfidensintervaller for totale strrelser


a) Konfidensinterval for total mngde Vi har en population med N elementer, middelvrdi og spredning . Vi har en stikprve p n elementer med genenmsnittet x og spredninge s. Den totale mngde i populationen er givet ved N , estimeres ved Nx og har et konfidensinterval p s N n N x Nt n 1, / 2 n N 1 (svarende til tilflde 3.1.1c. Tilsvarende formler glder for de andre tilflde). Konfindensinterval for antal med egenskab Vi har en population med N elementer, hvoraf p har en vis egenskab. Vi har en stikprve p n elementer, hvoraf x har egenskaben.

b)

Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er p (1 p ) N n Np Nz / 2 n 1 N 1

x . n

15

3.2 Stratificerede stikprver 3.2.1 Stratificerede stikprver med middelvrdi


I en stratificeret stikprve er populationen opdelt i k strata, og vi kender en rkke strrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstrrelse N i = strrelsen af stratum i n = stikprvens samlde strrelse ni = antallet af elementer i stikprven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i
si N i ni (en hjlpestrrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = N i xi = det samlede gennemsnit og punktestimatet af middelvrdien N i =1 1 k 2 2 2 st = 2 N i j = den samlede varians for middelvrdien N i =1
2

2 j =

Et konfidensinterval (intervalestimat) for er da xst z / 2 st < < xst + z / 2 st Et konfidensinterval (intervalestimat) for N (den samlede mngde) er Nxst Nz / 2 st < N < Nxst + Nz / 2 st
CKStat's menupunkt Stratificeret stikprve (middelvrdi) kan med fordel anvendes.

16

3.2.2 Stratificerede stikprver med andele


I en stratificeret stikprve er populationen opdelt i k strata, og vi kender en rkke strrelser for hvert af disse strata og for situationen i almindelighed:
N Ni n ni pi

= den samlede populationsstrrelse = strrelsen af stratum i = stikprvens samlde strrelse = antallet af elementer i stikprven fra stratum i = den observerede andel i stratum i
2

2 si = pi (1 pi ) = den observerede spredning i stratum i (beregnes)

si N i ni (en hjlpestrrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k pst = N i pi = det samlede gennemsnit og punktestimatet af middelvrdien N i =1 1 k 2 2 2 st = 2 N i j = den samlede varians for middelvrdien N i =1 2 j = Et konfidensinterval (intervalestimat) for er da pst z / 2 st < p < xst + z / 2 pst

Et konfidensinterval (intervalestimat) for Np (den samlede mngde) er Npst Nz / 2 st < Np < Npst + Nz / 2 st
CKStat's menupunkt Stratificeret stikprve (andele) kan med fordel anvendes.

17

3.2.3 Allokeringstrategier
Ved gennemfrelsen af en ny stratificeret stikprve kan man allokere, dvs. fordele stikprven ud p de enkelte strata, p flere forskellige mder.
Proportional allokering: Stikprvens strrelse fordeles ud pde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. Stikprven fordeles sledes, at sprednngen minimeres, dvs. strata med stor spreding fr et strre antal end evd proportional allokering. N i i ni = n N j j Kender vi ikke spredningerne , kan disse estimeres:

Ved middelvrdier: N i si ni = n N jsj Ved andele:


ni =

N i pi (1 pi ) n N j p j (1 p j )

CKStat's vrktjer Stratificeret stikprve (middelvrdi) og Stratificeret stikprve (andel) beregner disse strrelser.

18

4.1 Generelt om hypotesetests


Nr man skal lse en opgave med hypotesetests, s br flgende fremgangsmde anvendes: 1) Opstil, ud fra opgaveteksten, nulhypotesen H 0 og alternativhypotesen H A . Flgende regler br overholdes: H 0 og H A br udelukke hinanden, og der br ikke vre en tredie mulighed. Ved test for middelvrdi, spredning, varians og andel br man undersge, om der er tale om en ensidet test ( H 0 : 0 ) eller en tosidet test ( H 0 : = 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : = 0 og alternativhypotesen derfor af formen H A : 0 . Ved ensidede tests er nulhypotesen altid af formen H 0 : 0 eller H 0 : 0 og alternativhypotesen derfor af formen H A : < 0 henholdsvis H A : > 0 . Endvidere br observationerne understtte H A . Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese, der fortller mest om situationen, mens H A er, at H 0 ikke glder. Se de relevante tests for yderligere oplysninger. 2) 3) Opskriv eventuelle forudstninger for, at testen kan anvendes, og undersg evt. disse. Beregn teststrrelsen og p-vrdien, gerne vha. CKStat. Husk at opskrive relevante formler, og at vedlgge udskrift af relevante bregninger i Excel. Undersg, om alle forudstningerne for testen faktisk gjaldt. Undersg, om H 0 accepteres eller forkastes enten ved at sammenligne teststrrelsen med relevante fraktiler, eller ved at se p p-vrdien, eller gerne begge dele. Med mindre andet oplyses, s br man regne med et signifikansniveau p = 5% Skriv en konklusion i ord p resultatet af testen og vurdr gerne p-vrdien i forhold til testens signifikansniveau.

4) 5)

De fleste lrebger skelner mellem tre metoder, hvorp man kan afgre testens accept eller forkast men disse tre metoder er i virkeligheden fuldstndigt ens: Ved KI-metoden beregner man et 1 konfidensinterval og ser, om 'nulvrdien' ligger heri. Ved KV-metoden sammenligner man teststrrelsen med de relevante fraktiler (de kritiske strrelser). Ved P-metoden beregner man testens p-vrdi og sammenligner med signifikansniveauet. CKStat's skabeloner anvender bde KV- og P-metoderne, idet bde test-strrelse og kritiske vrdier beregnes og indtegnes, sammen med en beregning af p-vrdien, men som sagt er begge dele ikke ndvendige.

19

4.2 Test for middelvrdi, varians, spredning og andel 4.2.1 Test for middelvrdi
Anvendelse: Vi nsker at sige noget om middelvrdien af en stokastisk variabel, ud fra en stikprve. Vi kender stikprvestrrelsen n, stikprvens gennemsnit x , som jo er et estimat for middelvrdien , og vi kender enten den sande spredning for den stokastiske variabel, eller et estimat herfor, nemlig standardafvigelsen s, ud fra stikprven. Vi nsker at sammenligne middelvrdien med en fast strrelse, 0 . Der er i virkeligheden tale om hele tre forskellige tests, at efter, hvad vi ved om situationen. 4.2.1a : Normalfordeling med kendt varians 4.2.1b : Normalfordeling med ukendt varians 4.2.1c : Ukendt fordeling, stor stikprve Man kan forinden teste, enten grafisk (4.4.1) eller p anden vis (4.3.4), om vi har en normalfordeling, eller anvende test (4.2.1c) i stedet.

4.2.1.a Normalfordeling med kendt varians


Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 = 0 0
HA Teststrrelse

0 > 0

< 0 z= x 0 / n

p-vrdi Accept Forkast

2 ( | z |) z / 2 < z < z / 2

(z ) z > z / 2

1 ( z ) z < z / 2

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen z = er altid standard-normalfordelt. / n
Forudstninger: a) Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) b) Spredningen (eller variansen) skal vre kendt.

20

4.2.1.b Normalfordeling med ukendt varians


Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 = 0 0
HA Teststrrelse

0 > 0

< 0 x 0 s/ n FT ,n 1 (t ) t=

p-vrdi Accept Forkast

2 FT ,n 1 ( | t |)

1 FT ,n 1 (t )
t < t n 1, / 2

t n 1, / 2 < t < t n 1, t n1, / 2 < t t n 1, / 2 > t eller t > t n 1, / 2


t n 1, / 2 > t

t > t n 1, / 2

Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen t = er altid T-fordelt med n 1 frihedsgrader. s/ n
Forudstninger: Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT ,n 1 (t ) beregnes som =TDIST(ABS( t), n1, 1)

4.2.1.c Ukendt fordeling, stor stikprve


Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 = 0 0
HA Teststrrelse

0 > 0

< 0
z= x 0 s/ n

p-vrdi Accept Forkast

2 ( | z |) z / 2 < z < z / 2

( z ) z > z / 2

1 ( z ) z < z / 2

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen z = er altid standard-normalfordelt. / n
Forudstninger: Stikprven skal vre stor, dvs. n 40 . Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen

21

4.2.2 Test for varians eller spredning


Anvendelse: Vi har en rkke normalfordelte observationer og vil undersge variansen eller spredningen af dise observationer. Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 = 0 0
HA Teststrrels e

0 > 0

< 0 2 =
(n 1) s 2 2 0

Accept Forkast

2 n 1,1 / 2 < 2 < 2 n 1, / 2

2 n 1,1 / 2 < 2

2 < 2 n 1, / 2
2 n 1,1 / 2

2 > 2 n 1, / 2 2 n 1,1 / 2 > 2 eller 2 > 2 n 1, / 2 Husk, at alternativhypotesen skal understtte de observerede data! (n 1) s 2 er altid 2 -fordelt med n 1 frihedsgrader. Teststrrelsen 2 = 2 0

> 2

Forudstninger: Data skal vre normalfordelt dette testes vha. (4.3.6).

Beregninger: 2 -fraktilen 2 n 1, / 2 kan beregnes i Excel som =CHIINV( / 2 ,n-1).

22

4.2.3 Test for forskellen mellem to middelvrdier


Anvendelse: Vi nsker at sammeligne om middelvrdierne for to stokastisk variabel, ud fra to stikprver. Vi kender stikprvestrrelserne n1 og n2 , stikprvernes gennemsnit x1 og x2 x , og vi kender enten de sande spredninger 1 og 2 eller et estimaterne herfor, s1 eller s2 , ud fra stikprven. Der er i virkeligheden tale om hele tre forskellige tests, at efter, hvad vi ved om situationen. 4.2.3a : Normalfordelinger med kendte varianser 4.2.3b : Normalfordeling med ukendte, men ens varianser 4.2.3c : Ukendt fordelinger, store stikprver Der forekommer et tal D i hypoteserne, f.eks. 1 2 + D . Dette tal er en konstant, og man vlger som regel D = 0 for at f en direkte sammenlining. Men hvis man f.eks. skal teste, om den ene middelvrdi er mindst 3 strre end den anden, s skal vi teste for 1 2 + 3 , dvs. D = 3.

4.2.3.a Normalfordelinger med kendte varianser


Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 1 = 2 + D 1 2 + D
HA Teststrrelse

1 2 + D 1 > 2 + D

1 2 + D

1 < 2 + D x x D z= 1 2 2 2 1 2 + n1 n2

p-vrdi Accept

2 ( | z |) z / 2 < z < z / 2

( z ) z > z / 2

1 ( z ) z < z / 2

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x x D Teststrrelsen z = 1 2 er altid standard-normalfordelt. 2 2 1 2 + n1 n2

Forkast

Forudstninger: a) Vi skal have normalfordelinger, test evt. dette vha. (4.4.1) eller (4.3.4) b) Spredningerne (eller varianserne) skal vre kendt.

23

4.2.3.b Normalfordelinger med ukendt varians, flles varians


Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 1 = 2 + D 1 2 + D
HA Teststrrelse

1 2 + D 1 > 2 + D

1 2 + D

1 < 2 + D x x D t= 1 2 n +n s 1 2 n1 n2

p-vrdi

2 FT ,n1 + n2 2 ( | t |)
t n1 + n2 2, / 2 < t < t n1 + n2 2, / 2 t n1 + n2 2, / 2 > t eller t > t n1 + n2 2, / 2

FT ,n1 + n2 2 (t )
t n1 + n2 2, / 2 < t t n1 + n2 2, / 2 > t

1 FT ,n1 + n2 2 (t )
t < t n1 + n2 2, / 2 t > t n1 + n2 2, / 2

Accept Forkast

Husk, at alternativhypotesen skal understtte de observerede data! x x D er altid T-fordelt med n1 + n2 2 frihedsgrader. Teststrrelsen t = 1 2 n1 + n2 s n1 n2 Strrelsen s 2 = (n1 1) s1 + (n2 1) s2 kaldes den poolede varians. n1 + n2 2
2 2

Forudstninger: Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT ,n1 + n2 2 (t ) beregnes som =TDIST(ABS( t), n1+n22, 1)

24

4.2.3.c Ukendte fordelinger, stor stikprve


Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 1 = 2 + D 1 2 + D
HA Teststrrelse

1 2 + D 1 > 2 + D

1 2 + D

1 < 2 + D x x D z= 1 2 2 2 1 2 + n1 n2

p-vrdi Accept

2 ( | z |) z / 2 < z < z / 2

( z ) z > z / 2

1 ( z ) z < z / 2

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x x D er altid standard-normalfordelt. Teststrrelsen z = 1 2 2 2 1 2 + n1 n2

Forkast

Forudstninger: Stikprverne skal vre store, dvs. n 40 . Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne. Varianserne skal vre ens dette kan testes vha. (4.2.5)

25

4.2.4 Parvis sammenligning, forskellen p middelvrdier


Anvendelse: Vi har en rkke observationer af sammenhrende stokastiske variabler, hvir vi har obsrveret fr og efter en given ndring (f.eks. en persons kolesteroltal fr og efter indtagelen af en bestemt type medicin). Vi nsker at undersge forskellen mellem de to sammenhrene observationer. Kort sagt, vi har to rkker af n tal, xi og yi , og vil undersge deres differenser, d i = yi x1 .

Vi har gennemsnittet d heraf, og nsker at undersge middelvrdien d af denne forskel. Endvidere kender vi standardspredningen s af d i 'erne.
Selve testen: Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 d = d0 d d0
HA Teststrrelse

d d0 d > d0

d d0

p-vrdi

2 FT ,n 1 ( | t |)

d < d0 d d0 t= s/ n FT ,n 1 (t )

1 FT ,n 1 (t )
t < t n 1, / 2

Accept Forkast

t n 1, / 2 < t < t n 1, t n1, / 2 < t t n 1, / 2 > t eller t > t n 1, / 2


t n 1, / 2 > t

t > t n 1, / 2

Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen t = er altid T-fordelt med n 1 frihedsgrader. s/ n
Forudstninger: Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT ,n 1 (t ) beregnes som =TDIST(ABS( t), n1, 1)

26

4.2.5 Test for forskellen mellem to varianser


Anvendelse: Vi har stikprver fra to normalfordelte populationer, og vil teste, om spredningerne eller varianserne er ens. Selve testen: Beregningerne er lettere, hvis vi evt. bytter om p stikprverne, sledes at stikprve 1 har den strste observerede spredning, s1 > s2 . Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 1 = 2 1 2 1 2
HA Teststrrels e

1 2

1 < 2
F= s1 2 s2
2

1 > 2

Accept Forkast

F < Fn1 1,n2 1, / 2 F > Fn1 1,n2 1, / 2

F < Fn1 1,n2 1, F > Fn1 1,n2 1,

Husk at bytte om p de to stikprver!

Husk, at alternativhypotesen skal understtte de observerede data! 2 s Teststrrelsen F = 1 2 er altid F-fordelt med n1 1 , n2 1 frihedsgrader. s2
Forudstninger: Data skal vre normalfordelt dette testes vha. (4.3.6). Beregninger: F-fraktilen Fn1 1,n2 2, / 2 kan beregnes i Excel som =FINV( / 2 , n1-1, n2-1)

27

4.2.6 Test for andel


Anvendelse: Vi har en population, hvori nogle af medlemmerne besidder en vis egenskab. Vi vil undersge strrelsen af den andel p af populationen, som besidder egenskaben. x Vi har alts en stikprve p n individer, hvoraf x har egenskaben. Estimatet for p er da p = n . Vi nsker at sammenligne med en fast andel, p0 . Selve testen: Findes i hele tre varianter, alt efter nul- og alternativ-hypotesen: H0 p = p0 p p0 p p0
HA Teststrrelse

p p0

p < p0 z=

p > p0

p p0 p0 (1 p0 ) / n
( z ) z < z / 2

p-vrdi Accept

2 ( | z |) z / 2 < z < z / 2

1 ( z ) z > z / 2

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! p p0 er altid standard-normalfordelt. Teststrrelsen z = p0 (1 p0 ) / n

Forkast

Forudstninger: Stikprven skal vre stor, dvs. n 40 . Beregninger: CKStat's menupunkt Test for andel giver flgende skabelon:
Test for andel Stikprvestrrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststrrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-vrdi #VALUE! #VALUE! #VALUE!

Heri skal xxxxx'erne erstattes med stikprvstrrelsen n, det observerede antal x og den formodede andel p0 . Derefter kan teststrrelsen z og den relevante p-vrdi aflses.

28

4.2.7 Test for forskellen mellem to andele


Anvendelse: Vi har to population, hvori nogle af medlemmerne besidder en vis egenskab. Vi vil undersge forholdet mellem af de to andele p1 og p2 af populationerne, som besidder egenskaben. Vi har alts to stikprver p n1 og n2 individer, hvoraf x1 og x2 har egenskaben. Estimatet for p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . Vi nsker at sammenligne disse to. Selve testen: Findes i hele tre varianter, alt efter nul- og alternativ-hypotesen: H0 p1 = p2 p1 p2 p1 p2
HA Teststrrelse p1 < p2 p1 p2 z= n +n p0 (1 p0 ) 1 2 n1 n2 2 ( | z |) 1 ( z ) z / 2 < z < z / 2 z > z / 2 p1 p2 p1 > p2 x +x p0 = 1 2 n1 + n2

med

p-vrdi Accept Forkast

(z ) z < z / 2

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! p1 p2 Teststrrelsen z = er altid standard-normalfordelt. n1 + n2 p0 (1 p0 ) n1 n2
Forudstninger: Stikprverne skal vre store, dvs. n1 40 og n2 40 . Beregninger: CKStat's menupunkt Test for forskel mellem andele giver flgende skabelon:
Test for forskellen mellem andele Population Stikprvestrrelser (n) Antal (x) Estimerede andele Flles andel (p0) Teststrrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-vrdi #VALUE! #VALUE! #VALUE!

Heri skal xxxxx'erne erstattes med stikprvstrrelserne og de observerede antal x. Derefter kan teststrrelsen z og den relevante p-vrdi aflses.

29

4.2.8 Variansanalyse
Anvendelse: Vi har en rkke populationer, som alle er normalfordelte, og som alle har same varians. Vi har en rkke stikprver, n fra hver population, og vi vil afgre, som de har samme middelvrdi. Selve testen: Hypoteserne er altid: H 0 : 1 = 2 = ... = m H A : Mindst n af middelvrdierne er forskellig fra de andre. Forudstninger: Alle populationerne skal vre normalfordelte. (Kan kontrolleres ved test (4.4.1)) Alle varianserne skal vre ens (varianshomogenitet). Kan kontrolleres ves test (4.2.5), hvor vi sammenligner den mindste og den strste af stikprvernes spredninger. Beregninger: Beregingerne er komplicerede, men foretages let vha. Excels analyse-vrktj ANOVA: SIngle factor. Resultatet bliver:
Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3

Count 5 2 5

Sum Average Variance 45 9 197,5 6 3 2 20 4 0

ANOVA Source of Variation Between Groups Within Groups Total

SS 82,91667 792 874,9167

df

MS F F crit P-value 2 41,45833 0,471117 0,638871 4,256492 9 88 11

og det mest interessante tal er hr p-vrdien i cellen P-value. (0,638871), som fortolkes og anvendes p vanlig vis.

30

31

4.3 Goodness-of-fit tests ( 2 -tests)


Disse tests anvendes til at undersge, om et givet statistisk materiale, bestende af optllinger af observationer, inddelt i kategorier, flger et bestemt mnster. Det kan f.eks. vre om et antal observationer af en given stokastisk variabel flger en given fordeling, eller om der er uafhngighed i en kontigenstabel. Flles for alle disse tests er, at man tester og regner p de konkrete observerede (og forventede) antal, ikke p de tilsvarende frekvenser eller sandsynligheder.

Hypoteserne er altid (noget i stil med) H 0 : De observerede antal flger det nskede mnster H A : De observerede antal flger ikke det nskede mnster. En generel forudstning i disse tests er, at de forventede antal, Ei , br vre mindst 5: Ei 5 . Holder denne forudstning ikke, s risikerer man, at teststrrelsen 2 bliver for stor, og dermed den tilsvarende p-vrdi for lille. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. Er denne forudstning ikke opfyldt, s kanman sl de mindste kategorier sammen, indtil de forventede antal kommer op over 5.

32

4.3.1 Test for reprsentativitet / given sandsynlighedsfordeling


Anvendelse: 1) Vi har en population, som er opdelt i n kategorier. Andelene p1 , p2 ,... pn kendes. En stikprve udtages, og det observeres, at der er Oi elementer fra kategori i, osv. Er stikprven reprsentativ? 2) Vi har en fast sandsynlighedsfordeling, dvs. en opdeling af hndelser i n kategorier. Vi observerer nu en lang rkke hndelser med hyppighederne Oi i kategori i. Vi vil gerne teste, om sandsynlighederne p1 , p2 ,... pn passer med disse observerede antal. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 , p2 ,... pn H A : Mindst n af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed

De forventede vrdier Ei beregnes, og teststrrelsen 2 =

( Ei Oi ) 2 beregnes. Denne vil, Ei

under nedenstende forudstninger, vre 2 -fordelt med n 1 frihedsgrader.


Forudstninger Alle de forventede vrdier Ei br vre mindst 5, dvs. Ei > 5 . Beregninger CKStat's menupunkt Test for reprsentativitet leverer flgende skabelon:
Test for reprsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0,00% #VALUE!

Frihedsgrader Teststrrelse p-vrdi

2 #VALUE! #VALUE!

Teksterne 'Kat1', 'Kat2', ... br erstattes af pasende og mere beskrivende kategorititler. De observerede vrdier indtastes i stedet for 'xxxxx' i Oi-sjlen. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-sjlen. Resten af de relevante strrelser vil nu blive beregnet automatisk

33

4.3.6 Test for uafhngighed i kontigenstabeller


Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f.eks. mand/kvinde og ryger/ikke-ryger). Der er uafhngighed i denne inddeling? (dvs. relativt lige mange rygere blandt mndene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhngighed i kontigenstabellen. H A : Der er ikke uafhngighed i kontigenstabellen.

De forventede vrdier Ei beregnes, og teststrrelsen 2 =

( Ei Oi ) 2 beregnes. Denne vil Ei

vre 2 -fordelt med (r 1)(c 1) frihedsgrader, hvor der er r kategorier i den ene inddeling og c i den anden.
Forudstninger: Alle de forventede vrdier Ei br vre mindst 5, dvs. Ei > 5 . Beregninger: CKStat's menupunkt Test for uafhngighed giver nedenstende Excel-skabelon:
Test for uafhngighed i kontigenstabel Observerede vrdier R1 R2 Sum Forventede vrdier R1 R2 Sum Antal sjler Antal rkker Antal frihedsgrader Teststrrelse p-vrdi

C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0!

C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0!

C3 xxx xxx 0

C4 xxx xxx 0

Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0!

C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!

Rkke- og sjle-overskrifterne "R1", "R2" ... og "C1", "C2", ... br erstattes af mere sigende kategori-titler. Herefter erstattes "xxxxx" i skemaet med de faktiske, observerede vrdier, hvorp resten af strrelserne beregnes automatisk.

34

4.4 Andre tests 4.4.1 Grafisk test for normalitet


Anvendelse: Vi har en mleserie. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population

Testen gr ud p, at vi tegner et normalfraktildiagram (eller et q-q-diagram).Punkterne p dette diagram reprsenterer vores datast, og er der tale om en normalfordeling, s ligger disse punkter tt omkring den bedste rette linie.
Forudstninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox, hvori man skal markere de data, der skal undersges. Dette omrde behver ikke vre kun en sjle eller kun en rkke, og der m gerne vre tekst eller tomme celler i omrdet. Ved klik p OK genereres nogle mellemregninger og selve grafen. Denne kan evt. justeres til, hvis man nsker.
Normalfraktildiagram
2,50 2,00 1,50 1,00 0,50 0,00 -0,50 0 -1,00 -1,50 -2,00 -2,50

zi

10

12

14

xi

35

5. Liner regression

5.1 Excels analysevrktj


Centralt i beregninger med liner regression str Excels analysevrktj. Dette startes ved at vlge menupunkterne Tools.Data analysis og i den fremkomne dialogboks vlge Regression:

(Findes dette menupunkt ikke, s vlg Tools.Add-Ins, og i dialogboksen vlge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.) Herefter fremkommer en ny dialogboks:

36

De afhngige variable (y-vrdierne) skal angives i Input Y Range, de uafhngige variable (xvrdierne) i Input X Range har man overskrifter p disse, s tag dem med, og st et hak i Labels. I Output Range skal man vlge det sted p regnearket, hvor beregningerne skal fremkomme. Det anbefales at stte de resterene hakker som vist p figuren. Outputtet bliver noget i stil med:
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10

Intercept x

Standard Coefficients Error t Stat P-value -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10

Lower 95% -1,19901 1,966939

Upper 95% 0,380823 2,214879

RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1,681818 3,772727 5,863636 7,954545 10,04545 12,13636 14,22727 16,31818 18,40909 22,59091 Residuals 0,318182 0,227273 -0,86364 0,045455 -0,04545 0,863636 -0,22727 -0,31818 -0,40909 0,409091

samt nogle grafer, som anvendes i 5.2.2. En kort oversigt:


Multiple R, R squared og Adjusted R Squared er ml for forklaringsgraden: Jo nrmere denne forklaringsgrad er p 1, jo mere forklarer modellen. Lst sagt kan man sige, at hvis

37

forklaringsgraden er p 0,97, s kan 97% af variationen af den afhngige variabel (y) forklares ved variationerne i de afhngige variable (x'erne)
Standard Error, p dansk standardfejlen for residualerne, isr ved beregningen af forudsigelsesintervaller.

Under ANOVA-delen er det vigtigste tal Significance F dette tal er p-vrdien for hypotesen "Den linere model er ikke signifikant". Hvis dette tal er strre end f.eks. 5%, s er modellen vrdils. I nste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflses under Coefficients. Frst str skringen med y-aksen (eller konstantleddet), dernst koefficienterne for de enkelte forklarende variable (hldningerne). Standard Error indeholder standardfejlene for henholdsvis skringen og for de enkelte forklarende variable. Disse strrelser anvendes ved visse hypotesetests omkring strrelserne af disses koefficienter. P-value indeholder p-vrdien for hypoteserne "skringen er 0" og for "den forklarende variabels koefficient er 0, dvs. variablen er insignifikant". Igen br disse tal helst vre under 5%, for at modellen er noget vrd. Endeligt indeholder den nederste del residualerne, som isr er interessante, nr vi arbejder med simpel liner regression og skal teste modellens forudstninger (5.2.2)

38

5.2 Simpel liner regression 5.2.1 Opstilling af og forudstninger for den linere model
I den simple linere regression er der kun n forklarende variabel, og modellen er derfor Y = 0 + 1 X + E hvor 0 er konstantleddet (skringen med y-aksen) , 1 er hldningen og E er residualet. I praksis vil vi erstatte i 'erne med deres estimerede strrelser, so vi beregner i regressionen: Y = b0 + b1 X + E

Forudstningerne for, at vi kan foretage en liner regression, er altid: 1) 2) 3) 4) Der er faktisk tale om en liner sammenhng mellem de to variable. Varianserne for residualerne er uafhngige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelvrdi 0. Forudstning 1 testes ved at tegne et linie-plot, dvs. et plot af y-vrdierne som funktion af xvrdierne. Excel tilbyder at gre dette under analysevrktjet Liner Regresion (5.1), og denne graf kan sagtens anvendes. Forudstning 1 holder, hvis pukterne fordeler sig pnt omkring en ret linie, og der ikke er tendens til at punkterne flger en anden og pnere kurve (f.eks. en parabel). Forudstningerne 2 og 3 testes ved at tegne residualplottet. Igen tilbyder Excel at gre dette. Forudstning 2 holder, hvis punkterne er spredt jvnt ud over grafen, og der ikke er tendens til f.eks. at punkterne er tttere p frsteaksen (dvs. mindre residualer) for lave vrdier af x. Forudstning3 holder, hvis der ikke er tendens til, at punkterne klumper sig sammen og flger en kurve, men at punkterne i stedet spreder sig fra observation til observation. Forudstning 4 kan testes ved at lave et normalfraktilplot af residualerne. Residulerne tilbyder Excel at beregne, og udfra disse kan vi vha. (4.4.1) teste dette. Middelvrdien vil altid vre 0 (dvs. den bedste rette linie vil g gennem kordinatsystemets begyndelsespunkt), s vi behver blot at konstatere, om punkterne fordeler sig pnt omkring den bedste rette linie i plottet.

39

5.2.2 Signifikans for den linere model


(Dette hnger meget nje sammen med testen i 5.2.3) Den simple linere model er signifikant, hvis der er en reel sammenhng mellem de to variable, dvs. hvis hldningen 1 0 . Dette kan undersges ved flgende test:
H 0 : 1 = 0

og

H A : 1 0

b1 , hvor b er den faktiske hldning, som man beregner i regressionen, og s1 s1 er standardfejlen for denne koefficient. Teststrelsen er t-fordelt med n 2 frihedsgrader, hvor n er antallet af datast i regressionen. Denne strrelse er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet. Denne p-vrdi er ogs at finde verst i regressionen under ANOVA, Significance F.

Teststrrelsen er t =

SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10

Intercept x

Standard Coefficients Error t Stat P-value -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10

Lower 95% -1,19901 1,966939

Upper 95% 0,380823 2,214879

40

5.2.3 Test for hldningen


Vil man undersge strrelsen p hldningen, s kan nedenstende test anvendes: H 0 : 1 = c og H A : 1 c (man kan ogs teste ensidigt, men det er mere usdvanligt). b c Teststrrelsen er t = 1 , hvor b1 er den faktiske hldning, som man beregner i regressionen, s1 og s1 er standardfejlen for denne koefficient. Teststrelsen er t-fordelt med n 2 frihedsgrader, hvor n er antallet af datast i regressionen.
H0
HA Teststrrelse

1 = c 1 c

1 c 1 < c

1 c 1 > c

t=

b1 c sb

p-vrdi

2 FT ,n 2 ( | t |)
z / 2 < z < z / 2

FT ,n 2 (t ) z > z / 2

1 FT ,n 2 (t )
z < z / 2

Accept Forkast

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data!

Som regel er man intersseret i at vide, om den forklarende variabel er signifikant, dvs. teste, om 1 0 . I dette specielle tilflde er teststrrelsen er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet. Denne p-vrdi er ogs at finde verst i regressionen under ANOVA, Significance F.
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10

Intercept x

Standard Coefficients Error t Stat P-value -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10

Lower 95% -1,19901 1,966939

Upper 95% 0,380823 2,214879

41

5.2.4 Test for skringen


Vil man undersge strrelsen p sringen 0 (eller konstantleddet), s kan nedenstende test anvendes: H 0 : 0 = c og H A : 0 c (man kan ogs teste ensidigt, men det er mere usdvanligt). b c Teststrrelsen er t = 0 , hvor b0 er den faktiske skring, som man beregner i regressionen, s0 og s0 er standardfejlen for denne koefficient. Teststrelsen er t-fordelt med n 2 frihedsgrader, hvor n er antallet af datast i regressionen.
H0
HA

0 = c 0 c

0 c 0 < c t= b0 c s0

0 c >c

Teststrrelse
p-vrdi

2 FT ,n 2 ( | t |)
z / 2 < z < z / 2

FT ,n 2 (t ) z > z / 2

1 FT ,n 2 (t )
z < z / 2

Accept Forkast

z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data!

For specialtilfldet, hvor vi undersger, om 0 = 0 eller ej, har Excel beregnes teststrrelsen og den tilsvarende p-vrdi for os. I dette specielle tilflde er teststrrelsen er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet.
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10

Intercept x

Standard Coefficients t Stat P-value Error -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10

Lower 95% -1,19901 1,966939

Upper 95% 0,380823 2,214879

42

5.2.5 Forudsigelsesintervaller og konfidensintervaller


Ofte er man interesseret i at anvende den linere model til at forudside en ny y-vrdi, yny , ud fra en given x-vrdi, xny , for hvilken vi ikke har data i observationssttet. Punktestimatet for denne nye vrdi finds ved at indstte i den linere sammenhlbg fra (5.2.1): yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne strrelse:
x og SAK x er hjlpestrrelser, som defineres som flger: x=

1 n xi n i =1
n n

(gennemsnittet af x'erne i regresionen)


2

SAK x = ( xi x ) 2 = xi nx 2
i =1 i =1

se er standardfejlen, som kan aflses i regressionen verst som Standard Error.

Formlerne er
Forudsigelsesintervallet: (for den aktuelle vrdi yny )
yny + t n 2, / 2 se 1 +
2 1 ( xny x ) + n SAK x

Konfidensintervallet: (for middelvrdien af den forventede vrdi E (Y | X = X ny ) )


yny + t n 2, / 2 se
2 1 ( xny x ) + n SAK x

I Excel beregnes x som = AVERAGE( x-vrdierne) og SAK x som = SUMPRODUCT( x-vrdierne, x-vrdierne) x ^2

43

5.3 Multipel linere regression

5.3.1 Opstilling af den linere model


I den multiple linere regression er der kun flere forklarende variable, og modellen er derfor Y = 0 + 1 X 1 + 2 X 2 + ... + E hvor 0 er konstantleddet (skringen med y-aksen) , i er de enkelte variables koefficienter og E er residualet. I praksis vil vi erstatte i 'erne med deres estimerede strrelser, som vi beregner i regressionen: Y = b0 + b1 X 1 + 2 X 2 + ... + E

5.3.2 Signifikans af den linere model


Den linere model er signifikant, hvis der er en reel sammenhng mellem den afhngige og de forklarende variable, dvs. hvis mindst n af koefficienterne i ikke er 0. Dette kan undersges ved flgende test: H 0 : 1 = 2 = 3 = ... = 0 og H A : mindst n af i 'erne er ikke 0. Teststrrelsen for denne test er svr at beregne manuelt,en kan findes i Excels beregninger, sammen med den tilsvarende p-vrdi. Bemrk, at en lav p-vrdi (som nedenunder, hvor den er 7,272 10 6 ) indikerer, at modellen er signifikant!
RESUMEOUTPUT Regressionsstatistik Multipel R 0,9400 R-kvadreret 0,8837 Justeret Rkvadreret 0,8625 Standardfejl 18,9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867,0328 14933,5164 11 3932,4672 357,4970 13 33799,5000 t-stat -2,1850 0,5043 4,0141 F 41,7724 Signifikans F 7,272E-06

Skring Reklameindex Salg af cykler

Koefficienter Standardfejl -126,5380 57,9130 0,1315 0,2607 0,0574 0,0143

P-vrdi Nedre 95% vre 95% 0,0514 -254,0038 0,9278 0,6240 -0,4424 0,7054 0,0020 0,0259 0,0889

44

5.3.3 Signifikans af de enkelte forklarende variable


Den enkelte forklarende variabel X i er signifikant, hvis den har en reel indflydelse p Y, dvs. hvis koefficienten i 0 . Dette kan undersges ved flgende test: H 0 : i = 0 og H A : i 0 b Teststrrelsen er t = i , hvor bi er den faktiske koefficient, som man beregner i regressionen, og si si er standardfejlen for denne koefficient. Teststrelsen er t-fordelt med n 2 frihedsgrader, hvor n er antallet af datast i regressionen. Denne strrelse er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet. Bemrk, at en lav p-vrdi indikerer, at variablen er signifikant!
RESUMEOUTPUT Regressionsstatistik Multipel R 0,9400 R-kvadreret 0,8837 Justeret Rkvadreret 0,8625 Standardfejl 18,9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867,0328 14933,5164 11 3932,4672 357,4970 13 33799,5000 t-stat -2,1850 0,5043 4,0141 F 41,7724 Signifikans F 7,272E-06

Skring Reklameindex Salg af cykler

Koefficienter Standardfejl -126,5380 57,9130 0,1315 0,2607 0,0574 0,0143

P-vrdi Nedre 95% vre 95% 0,0514 -254,0038 0,9278 -0,4424 0,7054 0,6240 0,0259 0,0889 0,0020

45

5.3.4 Valg af den bedste linere model


Ofte stilles man overfor at skulle finde den bedste linere moel blandt en rkke. Valgkriterierne er her om flger: 1) 2) 3) Jo hjere forklaringsgrad, jo bedre (R-squared) Modellen skal vre signifikant De enkelte variable skal vre signifikante.

Krav 2 er absolut hvis modellen ikke er signifikant, s er den vrdils. Krav 3 skal helst vre opfyldt. Hvis der er flere insignifikante variable, s fjerner man ofte med mest insignifikante (den med den hjeste p-vrdi i testen i (5.3.3)), og modellerer videre. Som regel kan der ske, at hvis to forklarende variable er korrelerede, s vil de begge i modellen vise sig ved at den ene er insignifikant. Krav 1 er et kvalitetsml, som bedst anvendes til at vlge mellem modeller, som opfylder krav 2 og 3. Forklaringsgraden kan ikke alene anvendes til at vlge mellem modeller.

46

You might also like