Professional Documents
Culture Documents
Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datast 1.2 Grupperede datast 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hndelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprver 3.1.1 Konfidensinterval for middelvrdi 3.1.2 Konfidensinterval for forskellen mellem middelvrdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale strrelser 3.2 Stratificerede stikprver 3.2.1 Stratificeret stikprve med middelvrdi 3.2.2 Stratificeret stikprve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelvrdi, spredning, varians og andel 4.2.1 Test for middelvrdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelvrdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprver 4.2.4 Parvis sammenligning, forskellen p middelvrdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen p to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( 2 -tests) 4.3.1 Test for reprsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhngighed i kontigenstabeller
4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Liner regression 5.1 Excels analysevrktj 5.2 Simpel liner regression 5.2.1 Opstilling af og forudstninger for den linere model 5.2.2 Signifikans af den linere model 5.2.3 Tests for hldningen 5.2.4 Tests for skringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel liner regression 5.3.1 Opstilling af den linere model 5.3.2 Signifikans af den linere model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste linere model
x=
1 n xi n i =1
Variansen:
s2 =
Standardafvigelsen: s =
Excel-vrktjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstende og andre beregninger.
Variansen:
n 1 n 1 2 f i ( xi x ) = ( f i xi nx 2 ) n 1 i =1 n 1 i =1 n n 1 1 2 s2 = f i (mi x ) = ( f i ,i nx 2 ) n 1 i =1 n 1 i =1
Standardafvigelsen: s =
s=
n 1 n 1 2 fi ( xi x ) = n 1 ( fi xi nx 2 ) n 1 i =1 i =1 n 1 n 1 2 f i (mi x ) = ( f i mi nx 2 ) n 1 i =1 n 1 i =1
eller
I Excel: =PERMUT(n, k)
I Excel: = COMBIN(n, k)
Som regel er det de kumulerede sandsynligheder, man finder i tabellerne, s derfor glder (hvis X kun kan antage heltallige vrdier)
P ( X = x) = P ( X x) P( X x 1) = FX ( x) FX ( x 1) P ( X x) = 1 P( X < x) = 1 P ( X x 1) = 1 FX ( x 1)
P (a X b) = P ( X b) P ( X a 1) = FX (b) FX (a 1)
men i praksis er det nok lettere at beregne disse vrdier i Excel. Middelvrdi: EX = X = x P ( X = x) Varians: Var ( X ) = x 2 P( X = x) ( EX ) 2 = E ( X 2 ) ( EX ) 2 Spredning:
Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y ) Var ( X Y ) = Var ( X ) + Var (Y ) 2Cov( X , Y ) Var (kX ) = k 2Var ( X ) , hvor k er en konstant
2.2.1 Binomialfordelingen
Binomialfordelingen anvendes enten ved stikprver med tilbagelgning populationen bestr af n elementer, og andelen af 'gunstige' elementer kaldes p eller i de skaldte binomialsituationer, karakteriseret ved: et basiseksperiment, hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange, uafhngigt af hinanden (n kaldes antalsparametren) I begge tilflde angiver X antallet af successer eller gunstige elementer. X er alts binomial-fordelt, X bin(n, p) n n! p k (1 p) n k , x = 0, 1, 2, ..., n Tthedsfunktionen P ( X = k ) = p k (1 p) n k = k k!(n k )! Middelvrdien er EX = np Spredningen er
( X ) = np (1 p )
I Excel findes binomial-sandsynlighederne ved formlerne: P( X k ) =BINOMDIST( k, n, p, TRUE) P( X = k ) =BINOMDIST( k, n, p, FALSE) P ( X k ) = 1 P( X k 1) =1 BINOMDIST( k1, n, p, TRUE) Se endvidere CKStat's vrktj: Beregninger i binomialfordelingen.
Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelvrdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 ... 19 20 P(Xk) #VALUE! #VALUE! ... #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! ... #VALUE! #VALUE! P(Xk) 1,0000 #VALUE! ... #VALUE! #VALUE! EX= Var(X)= (X)=
Indtast vrdierne af n og p i de violette felter. Alle sandsynligheder vil s blive regnet ud i tabellen nedenfor. Bemrk, at hvis der str #NUM! i nogle af cellerne efter beregningerne, s skyldes det ugyldige vrdier, nemlig at k>n. Slet evt. disse rkker. Om ndvendigt kan man indstte flere rkker og kopiere rkkerne i tabellen ned, hvis n > 20 .
Indtast vrdierne af N, M og p i de violette felter. Alle sandsynligheder vil s blive regnet ud i tabellen nedenfor. Bemrk, at hvis der str #NUM! i nogle af cellerne efter beregningerne, s skyldes det ugyldige vrdier, nemlig at k>n. Slet evt. disse rkker. Om ndvendigt kan man indstte flere rkker og kopiere rkkerne i tabellen ned, hvis n > 20 .
2.2.3 Poisson-fordelingen
Poisson-fordelingen anvendes til at mle antal indtrufne hndelser i et givet tidsrum, forudsat at disse hndelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hndelse kun afhngig af tidsrummets strrelse og proportional med tidsrummets lngde. b) Det er meget usandsynligt, at der sker mere end en hndelse i samme lille tidsrum c) Antallet af hndelser i to tidsrum, som ikke overlapper hinanden, er uafhngige.
X angiver da antal hnder i det givne tidsrum (som gerne m vre stort). X Po( ) , hvor parametren er det forventede antal hndelser i vores tidsrum.
Bemrk, at hvis fx. X angiver antal hndelser i et minut, og X Po( ) , og hvis Y angiver antal hndelser i en time, s er Y Po(60 ) , da vi kan forvente 60 gange s mange hndelser p en time som i et minut. e k Tthedsfunktionen er P( X = k ) = , k = 0, 1, 2, ... k! EX = Middelvrdien er Spredningen er ( X ) =
I Excel findes Poisson-sandsynlighederne ved formlerne: P( X k ) =POISSON( k, , TRUE) P( X = k ) =POISSON( k, , FALSE) P ( X k ) = 1 P( X k 1) =1 POISSON( k1, , TRUE) Se endvidere CKStat's vrktj: Beregninger i Poissonfordelingen:
Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder = Middelvrdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 ... 20 P(Xk) #VALUE! #VALUE! ... #VALUE! P(X=k) #VALUE! #VALUE! ... #VALUE! P(Xk) 0,0000 #VALUE! ... #VALUE! EX= Var(X)= (X)=
Indtast vrdien af i det violette felt. Alle sandsynligheder vil s blive regnet ud i tabellen nedenfor. Om ndvendigt kan man indstte flere rkker og kopiere rkkerne i tabellen ned.
2.2.4 Normalfordelingen
Normalfordelingen er en kontinuert stokastisk variabel, og derfor glder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X x) = P ( X > x) = 1 P ( X x) = 1 P ( X < x) Normalfordelingen beskrives ved to parametre: middelvrdien og spredningen . Standardnormalfordelingen har = 0 og = 1 , og vi skriver Z N (0,1) . For standardnormalfordelingen glder 1 12 x 2 f Z ( x) = ( x) = e (tthedsfunktionen) 2 x 1 12 t 2 (fordelingsfunktionen) FZ ( x) = ( x) = e dt 2 Det er funktionen , man anvender i praksis og som er tabellagt. I Excel: (x) =NORMSDIST(x) 1 ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi, at hvis X N (, ) , s x FX ( x) = P( X x) = x P ( X x) = 1 P ( X x ) = 1 a b P ( a X b) = P ( X b) P ( X a ) = I Excel: P( X x) P( X x) P ( a X b) = NORMDIST(x, , , TRUE) = 1- NORMDIST(x, , , TRUE) = NORMDIST(b, , , TRUE) - NORMDIST(a, , , TRUE)
Flere ens fordelte, uafhngige normalfordelte sokastiske variable (stikprver) Hvis X 1 , X 2 ,..., X n N (, ) er n ens fordelte, uafhngige stokastiske variable, s glder der, at gennemsnittet af disse 1 X = ( X 1 + X 2 + ... + X n ) n er normalfordelt med middelvrdien og spredningen . n
10
= =
indtast indtast
Indtast middelvrdien og spredningen i de frste violette celler, og vrdier for a og b nedenunder. Forskellige sandsynligheder beregnes nu. I forbindelse med hypotesetest fr man brug for tabeller for bde den kumulerede standardnormalfordeling, , og den inverse fordeling. Disse kan enten beregnes i Excel som ovenfor eller sls op i en statistik tabel, som f.eks. ErlangS.
11
2.2.5 Approximationer
I mange situationer kan man approximere en foreling med en anden. Vi giver en lille oversigt:
Binomialfordelingen X (n, p) a) Hvis n 50 og np (1 p) 9 , s kan vi apprixomere med normalfordelingen:
Den hypergeometriske fordeling X hyp( N , S , n) a) Hvis n / N 0,1 , s kan vi apprixomere med binomialforelingen: S Y bin(n, ) og P ( X k ) = P(Y k ) N
b)
k + 0,5 P ( X k ) =
12
3 Konfidensintervaller
Generelt angiver vi et estimat for en strrelse p to mder som et punktestimat (et tal), og et intervalestimat (eller et konfidensinterval). Konfidensintervallet fortller noget om, hvor sikre vi er p estimatets strrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed, at vi er 95% sikre p, at den sande vrdi for den estimerede strrelse ligger i dette interval. Jo bredere intervallet er, jo mere usikre er vi p resultatet. Konfidensintervaller angives altid med et vist konfidensniveau, 1 , og som regel vlger vi at snakke om 95% konfidensintervaller. z Formlerne nedenfor angives p flgende mde: x / 2 n men man kunne lige s godt skrive konfidensintervallet som x z / 2 z x + /2 n n eller z / 2 z / 2 x n ; x + n
b)
c)
t n 1, / 2 s n
13
population I n1 x1 s1
population II n2 x2 s2
( x1 x2 ) z / 2
b)
1 2 + n1 n2
2
( x1 x2 ) z / 2
s1 s2 + n1 n2
Der stilles ingen krav til fordelingerne, og populationsspredningerne behver ikke at vre kendte.
c) To normalfordelinger med samme spredning.
(n1 1) s1 + (n2 1) s2 n +n ( x1 x2 ) t nx + x y 2, / 2 s 1 2 , hvor s = n1 n2 n1 + n2 2 Vi br forinden teste, at populationerne har samme varians. Dette gres ved testen (4.2.5 Vi anvender her t-fordelingen med n1 + n2 2 frihedsgrader.
2 2
14
b)
x . n
15
2 j =
Et konfidensinterval (intervalestimat) for er da xst z / 2 st < < xst + z / 2 st Et konfidensinterval (intervalestimat) for N (den samlede mngde) er Nxst Nz / 2 st < N < Nxst + Nz / 2 st
CKStat's menupunkt Stratificeret stikprve (middelvrdi) kan med fordel anvendes.
16
= den samlede populationsstrrelse = strrelsen af stratum i = stikprvens samlde strrelse = antallet af elementer i stikprven fra stratum i = den observerede andel i stratum i
2
si N i ni (en hjlpestrrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k pst = N i pi = det samlede gennemsnit og punktestimatet af middelvrdien N i =1 1 k 2 2 2 st = 2 N i j = den samlede varians for middelvrdien N i =1 2 j = Et konfidensinterval (intervalestimat) for er da pst z / 2 st < p < xst + z / 2 pst
Et konfidensinterval (intervalestimat) for Np (den samlede mngde) er Npst Nz / 2 st < Np < Npst + Nz / 2 st
CKStat's menupunkt Stratificeret stikprve (andele) kan med fordel anvendes.
17
3.2.3 Allokeringstrategier
Ved gennemfrelsen af en ny stratificeret stikprve kan man allokere, dvs. fordele stikprven ud p de enkelte strata, p flere forskellige mder.
Proportional allokering: Stikprvens strrelse fordeles ud pde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum. Stikprven fordeles sledes, at sprednngen minimeres, dvs. strata med stor spreding fr et strre antal end evd proportional allokering. N i i ni = n N j j Kender vi ikke spredningerne , kan disse estimeres:
N i pi (1 pi ) n N j p j (1 p j )
CKStat's vrktjer Stratificeret stikprve (middelvrdi) og Stratificeret stikprve (andel) beregner disse strrelser.
18
4) 5)
De fleste lrebger skelner mellem tre metoder, hvorp man kan afgre testens accept eller forkast men disse tre metoder er i virkeligheden fuldstndigt ens: Ved KI-metoden beregner man et 1 konfidensinterval og ser, om 'nulvrdien' ligger heri. Ved KV-metoden sammenligner man teststrrelsen med de relevante fraktiler (de kritiske strrelser). Ved P-metoden beregner man testens p-vrdi og sammenligner med signifikansniveauet. CKStat's skabeloner anvender bde KV- og P-metoderne, idet bde test-strrelse og kritiske vrdier beregnes og indtegnes, sammen med en beregning af p-vrdien, men som sagt er begge dele ikke ndvendige.
19
4.2 Test for middelvrdi, varians, spredning og andel 4.2.1 Test for middelvrdi
Anvendelse: Vi nsker at sige noget om middelvrdien af en stokastisk variabel, ud fra en stikprve. Vi kender stikprvestrrelsen n, stikprvens gennemsnit x , som jo er et estimat for middelvrdien , og vi kender enten den sande spredning for den stokastiske variabel, eller et estimat herfor, nemlig standardafvigelsen s, ud fra stikprven. Vi nsker at sammenligne middelvrdien med en fast strrelse, 0 . Der er i virkeligheden tale om hele tre forskellige tests, at efter, hvad vi ved om situationen. 4.2.1a : Normalfordeling med kendt varians 4.2.1b : Normalfordeling med ukendt varians 4.2.1c : Ukendt fordeling, stor stikprve Man kan forinden teste, enten grafisk (4.4.1) eller p anden vis (4.3.4), om vi har en normalfordeling, eller anvende test (4.2.1c) i stedet.
0 > 0
< 0 z= x 0 / n
2 ( | z |) z / 2 < z < z / 2
(z ) z > z / 2
1 ( z ) z < z / 2
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen z = er altid standard-normalfordelt. / n
Forudstninger: a) Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) b) Spredningen (eller variansen) skal vre kendt.
20
0 > 0
< 0 x 0 s/ n FT ,n 1 (t ) t=
2 FT ,n 1 ( | t |)
1 FT ,n 1 (t )
t < t n 1, / 2
t > t n 1, / 2
Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen t = er altid T-fordelt med n 1 frihedsgrader. s/ n
Forudstninger: Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT ,n 1 (t ) beregnes som =TDIST(ABS( t), n1, 1)
0 > 0
< 0
z= x 0 s/ n
2 ( | z |) z / 2 < z < z / 2
( z ) z > z / 2
1 ( z ) z < z / 2
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen z = er altid standard-normalfordelt. / n
Forudstninger: Stikprven skal vre stor, dvs. n 40 . Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen
21
0 > 0
< 0 2 =
(n 1) s 2 2 0
Accept Forkast
2 n 1,1 / 2 < 2
2 < 2 n 1, / 2
2 n 1,1 / 2
2 > 2 n 1, / 2 2 n 1,1 / 2 > 2 eller 2 > 2 n 1, / 2 Husk, at alternativhypotesen skal understtte de observerede data! (n 1) s 2 er altid 2 -fordelt med n 1 frihedsgrader. Teststrrelsen 2 = 2 0
> 2
22
1 2 + D 1 > 2 + D
1 2 + D
1 < 2 + D x x D z= 1 2 2 2 1 2 + n1 n2
p-vrdi Accept
2 ( | z |) z / 2 < z < z / 2
( z ) z > z / 2
1 ( z ) z < z / 2
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x x D Teststrrelsen z = 1 2 er altid standard-normalfordelt. 2 2 1 2 + n1 n2
Forkast
Forudstninger: a) Vi skal have normalfordelinger, test evt. dette vha. (4.4.1) eller (4.3.4) b) Spredningerne (eller varianserne) skal vre kendt.
23
1 2 + D 1 > 2 + D
1 2 + D
1 < 2 + D x x D t= 1 2 n +n s 1 2 n1 n2
p-vrdi
2 FT ,n1 + n2 2 ( | t |)
t n1 + n2 2, / 2 < t < t n1 + n2 2, / 2 t n1 + n2 2, / 2 > t eller t > t n1 + n2 2, / 2
FT ,n1 + n2 2 (t )
t n1 + n2 2, / 2 < t t n1 + n2 2, / 2 > t
1 FT ,n1 + n2 2 (t )
t < t n1 + n2 2, / 2 t > t n1 + n2 2, / 2
Accept Forkast
Husk, at alternativhypotesen skal understtte de observerede data! x x D er altid T-fordelt med n1 + n2 2 frihedsgrader. Teststrrelsen t = 1 2 n1 + n2 s n1 n2 Strrelsen s 2 = (n1 1) s1 + (n2 1) s2 kaldes den poolede varians. n1 + n2 2
2 2
Forudstninger: Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT ,n1 + n2 2 (t ) beregnes som =TDIST(ABS( t), n1+n22, 1)
24
1 2 + D 1 > 2 + D
1 2 + D
1 < 2 + D x x D z= 1 2 2 2 1 2 + n1 n2
p-vrdi Accept
2 ( | z |) z / 2 < z < z / 2
( z ) z > z / 2
1 ( z ) z < z / 2
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! x x D er altid standard-normalfordelt. Teststrrelsen z = 1 2 2 2 1 2 + n1 n2
Forkast
Forudstninger: Stikprverne skal vre store, dvs. n 40 . Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne. Varianserne skal vre ens dette kan testes vha. (4.2.5)
25
Vi har gennemsnittet d heraf, og nsker at undersge middelvrdien d af denne forskel. Endvidere kender vi standardspredningen s af d i 'erne.
Selve testen: Selve testen: Findes i tre varianter, alt efter nul- og alternativ-hypotesen: H0 d = d0 d d0
HA Teststrrelse
d d0 d > d0
d d0
p-vrdi
2 FT ,n 1 ( | t |)
d < d0 d d0 t= s/ n FT ,n 1 (t )
1 FT ,n 1 (t )
t < t n 1, / 2
Accept Forkast
t > t n 1, / 2
Husk, at alternativhypotesen skal understtte de observerede data! x 0 Teststrrelsen t = er altid T-fordelt med n 1 frihedsgrader. s/ n
Forudstninger: Vi skal have en normalfordeling, test evt. dette vha. (4.4.1) eller (4.3.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT ,n 1 (t ) beregnes som =TDIST(ABS( t), n1, 1)
26
1 2
1 < 2
F= s1 2 s2
2
1 > 2
Accept Forkast
Husk, at alternativhypotesen skal understtte de observerede data! 2 s Teststrrelsen F = 1 2 er altid F-fordelt med n1 1 , n2 1 frihedsgrader. s2
Forudstninger: Data skal vre normalfordelt dette testes vha. (4.3.6). Beregninger: F-fraktilen Fn1 1,n2 2, / 2 kan beregnes i Excel som =FINV( / 2 , n1-1, n2-1)
27
p p0
p < p0 z=
p > p0
p p0 p0 (1 p0 ) / n
( z ) z < z / 2
p-vrdi Accept
2 ( | z |) z / 2 < z < z / 2
1 ( z ) z > z / 2
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! p p0 er altid standard-normalfordelt. Teststrrelsen z = p0 (1 p0 ) / n
Forkast
Forudstninger: Stikprven skal vre stor, dvs. n 40 . Beregninger: CKStat's menupunkt Test for andel giver flgende skabelon:
Test for andel Stikprvestrrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststrrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-vrdi #VALUE! #VALUE! #VALUE!
Heri skal xxxxx'erne erstattes med stikprvstrrelsen n, det observerede antal x og den formodede andel p0 . Derefter kan teststrrelsen z og den relevante p-vrdi aflses.
28
med
(z ) z < z / 2
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data! p1 p2 Teststrrelsen z = er altid standard-normalfordelt. n1 + n2 p0 (1 p0 ) n1 n2
Forudstninger: Stikprverne skal vre store, dvs. n1 40 og n2 40 . Beregninger: CKStat's menupunkt Test for forskel mellem andele giver flgende skabelon:
Test for forskellen mellem andele Population Stikprvestrrelser (n) Antal (x) Estimerede andele Flles andel (p0) Teststrrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-vrdi #VALUE! #VALUE! #VALUE!
Heri skal xxxxx'erne erstattes med stikprvstrrelserne og de observerede antal x. Derefter kan teststrrelsen z og den relevante p-vrdi aflses.
29
4.2.8 Variansanalyse
Anvendelse: Vi har en rkke populationer, som alle er normalfordelte, og som alle har same varians. Vi har en rkke stikprver, n fra hver population, og vi vil afgre, som de har samme middelvrdi. Selve testen: Hypoteserne er altid: H 0 : 1 = 2 = ... = m H A : Mindst n af middelvrdierne er forskellig fra de andre. Forudstninger: Alle populationerne skal vre normalfordelte. (Kan kontrolleres ved test (4.4.1)) Alle varianserne skal vre ens (varianshomogenitet). Kan kontrolleres ves test (4.2.5), hvor vi sammenligner den mindste og den strste af stikprvernes spredninger. Beregninger: Beregingerne er komplicerede, men foretages let vha. Excels analyse-vrktj ANOVA: SIngle factor. Resultatet bliver:
Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3
Count 5 2 5
df
og det mest interessante tal er hr p-vrdien i cellen P-value. (0,638871), som fortolkes og anvendes p vanlig vis.
30
31
Hypoteserne er altid (noget i stil med) H 0 : De observerede antal flger det nskede mnster H A : De observerede antal flger ikke det nskede mnster. En generel forudstning i disse tests er, at de forventede antal, Ei , br vre mindst 5: Ei 5 . Holder denne forudstning ikke, s risikerer man, at teststrrelsen 2 bliver for stor, og dermed den tilsvarende p-vrdi for lille. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. Er denne forudstning ikke opfyldt, s kanman sl de mindste kategorier sammen, indtil de forventede antal kommer op over 5.
32
2 #VALUE! #VALUE!
Teksterne 'Kat1', 'Kat2', ... br erstattes af pasende og mere beskrivende kategorititler. De observerede vrdier indtastes i stedet for 'xxxxx' i Oi-sjlen. De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-sjlen. Resten af de relevante strrelser vil nu blive beregnet automatisk
33
vre 2 -fordelt med (r 1)(c 1) frihedsgrader, hvor der er r kategorier i den ene inddeling og c i den anden.
Forudstninger: Alle de forventede vrdier Ei br vre mindst 5, dvs. Ei > 5 . Beregninger: CKStat's menupunkt Test for uafhngighed giver nedenstende Excel-skabelon:
Test for uafhngighed i kontigenstabel Observerede vrdier R1 R2 Sum Forventede vrdier R1 R2 Sum Antal sjler Antal rkker Antal frihedsgrader Teststrrelse p-vrdi
C3 xxx xxx 0
C4 xxx xxx 0
Rkke- og sjle-overskrifterne "R1", "R2" ... og "C1", "C2", ... br erstattes af mere sigende kategori-titler. Herefter erstattes "xxxxx" i skemaet med de faktiske, observerede vrdier, hvorp resten af strrelserne beregnes automatisk.
34
Testen gr ud p, at vi tegner et normalfraktildiagram (eller et q-q-diagram).Punkterne p dette diagram reprsenterer vores datast, og er der tale om en normalfordeling, s ligger disse punkter tt omkring den bedste rette linie.
Forudstninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox, hvori man skal markere de data, der skal undersges. Dette omrde behver ikke vre kun en sjle eller kun en rkke, og der m gerne vre tekst eller tomme celler i omrdet. Ved klik p OK genereres nogle mellemregninger og selve grafen. Denne kan evt. justeres til, hvis man nsker.
Normalfraktildiagram
2,50 2,00 1,50 1,00 0,50 0,00 -0,50 0 -1,00 -1,50 -2,00 -2,50
zi
10
12
14
xi
35
5. Liner regression
(Findes dette menupunkt ikke, s vlg Tools.Add-Ins, og i dialogboksen vlge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.) Herefter fremkommer en ny dialogboks:
36
De afhngige variable (y-vrdierne) skal angives i Input Y Range, de uafhngige variable (xvrdierne) i Input X Range har man overskrifter p disse, s tag dem med, og st et hak i Labels. I Output Range skal man vlge det sted p regnearket, hvor beregningerne skal fremkomme. Det anbefales at stte de resterene hakker som vist p figuren. Outputtet bliver noget i stil med:
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10
Intercept x
Standard Coefficients Error t Stat P-value -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10
RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1,681818 3,772727 5,863636 7,954545 10,04545 12,13636 14,22727 16,31818 18,40909 22,59091 Residuals 0,318182 0,227273 -0,86364 0,045455 -0,04545 0,863636 -0,22727 -0,31818 -0,40909 0,409091
37
forklaringsgraden er p 0,97, s kan 97% af variationen af den afhngige variabel (y) forklares ved variationerne i de afhngige variable (x'erne)
Standard Error, p dansk standardfejlen for residualerne, isr ved beregningen af forudsigelsesintervaller.
Under ANOVA-delen er det vigtigste tal Significance F dette tal er p-vrdien for hypotesen "Den linere model er ikke signifikant". Hvis dette tal er strre end f.eks. 5%, s er modellen vrdils. I nste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflses under Coefficients. Frst str skringen med y-aksen (eller konstantleddet), dernst koefficienterne for de enkelte forklarende variable (hldningerne). Standard Error indeholder standardfejlene for henholdsvis skringen og for de enkelte forklarende variable. Disse strrelser anvendes ved visse hypotesetests omkring strrelserne af disses koefficienter. P-value indeholder p-vrdien for hypoteserne "skringen er 0" og for "den forklarende variabels koefficient er 0, dvs. variablen er insignifikant". Igen br disse tal helst vre under 5%, for at modellen er noget vrd. Endeligt indeholder den nederste del residualerne, som isr er interessante, nr vi arbejder med simpel liner regression og skal teste modellens forudstninger (5.2.2)
38
5.2 Simpel liner regression 5.2.1 Opstilling af og forudstninger for den linere model
I den simple linere regression er der kun n forklarende variabel, og modellen er derfor Y = 0 + 1 X + E hvor 0 er konstantleddet (skringen med y-aksen) , 1 er hldningen og E er residualet. I praksis vil vi erstatte i 'erne med deres estimerede strrelser, so vi beregner i regressionen: Y = b0 + b1 X + E
Forudstningerne for, at vi kan foretage en liner regression, er altid: 1) 2) 3) 4) Der er faktisk tale om en liner sammenhng mellem de to variable. Varianserne for residualerne er uafhngige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelvrdi 0. Forudstning 1 testes ved at tegne et linie-plot, dvs. et plot af y-vrdierne som funktion af xvrdierne. Excel tilbyder at gre dette under analysevrktjet Liner Regresion (5.1), og denne graf kan sagtens anvendes. Forudstning 1 holder, hvis pukterne fordeler sig pnt omkring en ret linie, og der ikke er tendens til at punkterne flger en anden og pnere kurve (f.eks. en parabel). Forudstningerne 2 og 3 testes ved at tegne residualplottet. Igen tilbyder Excel at gre dette. Forudstning 2 holder, hvis punkterne er spredt jvnt ud over grafen, og der ikke er tendens til f.eks. at punkterne er tttere p frsteaksen (dvs. mindre residualer) for lave vrdier af x. Forudstning3 holder, hvis der ikke er tendens til, at punkterne klumper sig sammen og flger en kurve, men at punkterne i stedet spreder sig fra observation til observation. Forudstning 4 kan testes ved at lave et normalfraktilplot af residualerne. Residulerne tilbyder Excel at beregne, og udfra disse kan vi vha. (4.4.1) teste dette. Middelvrdien vil altid vre 0 (dvs. den bedste rette linie vil g gennem kordinatsystemets begyndelsespunkt), s vi behver blot at konstatere, om punkterne fordeler sig pnt omkring den bedste rette linie i plottet.
39
og
H A : 1 0
b1 , hvor b er den faktiske hldning, som man beregner i regressionen, og s1 s1 er standardfejlen for denne koefficient. Teststrelsen er t-fordelt med n 2 frihedsgrader, hvor n er antallet af datast i regressionen. Denne strrelse er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet. Denne p-vrdi er ogs at finde verst i regressionen under ANOVA, Significance F.
Teststrrelsen er t =
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10
Intercept x
Standard Coefficients Error t Stat P-value -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10
40
1 = c 1 c
1 c 1 < c
1 c 1 > c
t=
b1 c sb
p-vrdi
2 FT ,n 2 ( | t |)
z / 2 < z < z / 2
FT ,n 2 (t ) z > z / 2
1 FT ,n 2 (t )
z < z / 2
Accept Forkast
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data!
Som regel er man intersseret i at vide, om den forklarende variabel er signifikant, dvs. teste, om 1 0 . I dette specielle tilflde er teststrrelsen er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet. Denne p-vrdi er ogs at finde verst i regressionen under ANOVA, Significance F.
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10
Intercept x
Standard Coefficients Error t Stat P-value -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10
41
0 = c 0 c
0 c 0 < c t= b0 c s0
0 c >c
Teststrrelse
p-vrdi
2 FT ,n 2 ( | t |)
z / 2 < z < z / 2
FT ,n 2 (t ) z > z / 2
1 FT ,n 2 (t )
z < z / 2
Accept Forkast
z < z / 2 eller z < z / 2 z > z / 2 z > z / 2 Husk, at alternativhypotesen skal understtte de observerede data!
For specialtilfldet, hvor vi undersger, om 0 = 0 eller ej, har Excel beregnes teststrrelsen og den tilsvarende p-vrdi for os. I dette specielle tilflde er teststrrelsen er beregnet for n i regresionen under t-stat, og i sidste kolonne er p-vrdien angivet.
SUMMARY OUTPUT Regression Statistics Multiple R 0,997366 R Square 0,994739 Adjusted R Square 0,994082 Standard Error 0,516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403,9636 403,9636 1512,715 8 2,136364 0,267045 9 406,1 Significance F 2,1E-10
Intercept x
Standard Coefficients t Stat P-value Error -0,40909 0,342547 -1,19426 0,266581 2,090909 0,05376 38,89364 2,1E-10
42
1 n xi n i =1
n n
SAK x = ( xi x ) 2 = xi nx 2
i =1 i =1
Formlerne er
Forudsigelsesintervallet: (for den aktuelle vrdi yny )
yny + t n 2, / 2 se 1 +
2 1 ( xny x ) + n SAK x
I Excel beregnes x som = AVERAGE( x-vrdierne) og SAK x som = SUMPRODUCT( x-vrdierne, x-vrdierne) x ^2
43
P-vrdi Nedre 95% vre 95% 0,0514 -254,0038 0,9278 0,6240 -0,4424 0,7054 0,0020 0,0259 0,0889
44
P-vrdi Nedre 95% vre 95% 0,0514 -254,0038 0,9278 -0,4424 0,7054 0,6240 0,0259 0,0889 0,0020
45
Krav 2 er absolut hvis modellen ikke er signifikant, s er den vrdils. Krav 3 skal helst vre opfyldt. Hvis der er flere insignifikante variable, s fjerner man ofte med mest insignifikante (den med den hjeste p-vrdi i testen i (5.3.3)), og modellerer videre. Som regel kan der ske, at hvis to forklarende variable er korrelerede, s vil de begge i modellen vise sig ved at den ene er insignifikant. Krav 1 er et kvalitetsml, som bedst anvendes til at vlge mellem modeller, som opfylder krav 2 og 3. Forklaringsgraden kan ikke alene anvendes til at vlge mellem modeller.
46