P. 1
For Mel Sam Ling

For Mel Sam Ling

|Views: 44|Likes:
Published by Da Dsfsfsd

More info:

Published by: Da Dsfsfsd on Aug 27, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/06/2014

pdf

text

original

Sections

  • 1.1 Ugrupperede datasæt
  • 1.2 Grupperede datasæt
  • 2.1 Regning med hændelser
  • 2.2.1 Binomialfordelingen
  • 2.2.2 Den hypergeometriske fordeling
  • 2.2.3 Poisson-fordelingen
  • 2.2.4 Normalfordelingen
  • 2.2.5 Approximationer
  • 3.1.1 Konfidensintervaller for middelværdi
  • 3.1.2 Konfidensinterval for forskellen mellem middelværdier
  • 3.1.3 Konfidensinterval for varians
  • 3.1.4 Konfidensinterval for andel
  • 3.1.5 Konfidensinterval for forskel mellem andele
  • 3.1.6 Konfidensintervaller for totale størrelser
  • 3.2.1 Stratificerede stikprøver med middelværdi
  • 3.2.2 Stratificerede stikprøver med andele
  • 3.2.3 Allokeringstrategier
  • 4.1 Generelt om hypotesetests
  • 4.2.1 Test for middelværdi
  • 4.2.2 Test for varians eller spredning
  • 4.2.3 Test for forskellen mellem to middelværdier
  • 4.2.4 Parvis sammenligning, forskellen på middelværdier
  • 4.2.5 Test for forskellen mellem to varianser
  • 4.2.6 Test for andel
  • 4.2.7 Test for forskellen mellem to andele
  • 4.2.8 Variansanalyse
  • 4.3.1 Test for repræsentativitet / given sandsynlighedsfordeling
  • 4.3.6 Test for uafhængighed i kontigenstabeller
  • 4.4 Andre tests
  • 5.1 Excels analyseværktøj
  • 5.2.1 Opstilling af og forudsætninger for den lineære model
  • 5.2.2 Signifikans for den lineære model
  • 5.2.3 Test for hældningen
  • 5.2.4 Test for skæringen
  • 5.2.5 Forudsigelsesintervaller og konfidensintervaller
  • 5.3.1 Opstilling af den lineære model
  • 5.3.2 Signifikans af den lineære model
  • 5.3.3 Signifikans af de enkelte forklarende variable
  • 5.3.4 Valg af den bedste lineære model

Formelsamling i statistik

- med fokus på anvendelsen af Excel, og især på anvendelsen af CKStat
af Kenneth Hansen

Indholdsfortegnelse
1. Deskriptiv statistik 1.1 Ugrupperede datasæt 1.2 Grupperede datasæt 2. Sandsynlighedsregning og stokastiske variable 2.1 Regning med hændelser 2.2 Stokastiske variable 2.2.1 Binomialfordelingen 2.2.2 Den hypergeometriske fordeling 2.2.3 Poisson-fordelingen 2.2.4 Normalfordelingen 2.2.5 Approximationer 3. Konfidensintervaller 3.1 Simple stikprøver 3.1.1 Konfidensinterval for middelværdi 3.1.2 Konfidensinterval for forskellen mellem middelværdier 3.1.3 Konfidensinterval for varians 3.1.4 Konfidensinterval for andel og antal i population 3.1.5 Konfidensinterval for forskel mellem andele 3.1.6 Konfidensintervaller for totale størrelser 3.2 Stratificerede stikprøver 3.2.1 Stratificeret stikprøve med middelværdi 3.2.2 Stratificeret stikprøve med andel 3.2.3 Allokeringsstrategier 4. Hypotesetests 4.1 Generelt om hypotesetests 4.2 Test for middelværdi, spredning, varians og andel 4.2.1 Test for middelværdi 4.2.1a normalfordeling med kendt varians 4.2.1b normalfordeling med ukendt varians 4.2.1c ukendt fordeling, stor stikprøve 4.2.2 Test for varians eller spredning 4.2.3 Test for forskellen mellem to middelværdier 4.2.3a to normalfordelinger med kendte varianser 4.2.3b to normalfordelinger med samme varians 4.2.3c ukendte fordelinger, store stikprøver 4.2.4 Parvis sammenligning, forskellen på middelværdier 4.2.5 Test for forskellen mellem to varianser 4.2.6 Test for andel 4.2.7 Test for forskellen på to andele 4.2.8 Variansanalyse 4.3 Goodness-of-fit tests ( χ 2 -tests) 4.3.1 Test for repræsentativitet/given fordeling 4.3.2 Test for binomialfordeling (udeladt) 4.3.3 Test for Poisson-fordeling (udeladt) 4.3.4 Test for normalfordeling (udeladt) 4.3.5 Test for andre fordelinger (udeladt) 4.3.6 Test for uafhængighed i kontigenstabeller

2

4.4 Andre tests 4.4.1 Grafisk test for normalfordeling 5. Lineær regression 5.1 Excels analyseværktøj 5.2 Simpel lineær regression 5.2.1 Opstilling af og forudsætninger for den lineære model 5.2.2 Signifikans af den lineære model 5.2.3 Tests for hældningen 5.2.4 Tests for skæringen 5.2.5 Forudsigelsesintervaller og konfidensintervaller 5.3 Multipel lineær regression 5.3.1 Opstilling af den lineære model 5.3.2 Signifikans af den lineære model 5.3.3 Signifikans af de enkelte forklarende variable 5.3.4 Opstilling af den bedste lineære model

3

1. Deskriptiv statistik 1.1 Ugrupperede datasæt
Vi har et datasæt x1 , x2 ,..., xn bestående af n observationer. Ud fra disse kan vi beregne følgende størrelser: Gennemsnittet:

x=

1 n ∑ xi n i =1

i Excel: AVERAGE( datablok )

Variansen:

s2 =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: VAR( datablok )

Standardafvigelsen: s =

n 1 n 1 2 ( xi − x ) = (∑ xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 i Excel: STDEV( datablok )

Excel-værktøjet Descriptive statistics (Tools.Data Analysis.Descriptive statistics) kan med fordel anvendes til ovenstående og andre beregninger.

1.2 Grupperede datasæt
Vi har et datasæt bestående af m kategorier med ialt n observationer. Den i'te kategori er enten karakteriseret ved en størrelse xi (diskrete observationer) eller et datainterval med midtpunkt mi . For hver enkelt kateori har vi en frekvens f i (eller et antal ni , hvoraf frekvenen kan findes som f i = ni / n ) Vi kan beregne følgende størrelser: Gennemsnittet: 1 n x = ∑ f i xi n i =1 s2 = eller 1 n x = ∑ mi xi n i =1 eller

Variansen:

n 1 n 1 2 f i ( xi − x ) = (∑ f i xi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1 n n 1 1 2 s2 = f i (mi − x ) = (∑ f i ,i − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

Standardafvigelsen: s =
s=

n 1 n 1 2 ∑ fi ( xi − x ) = n − 1 (∑ fi xi − nx 2 ) n − 1 i =1 i =1 n 1 n 1 2 f i (mi − x ) = (∑ f i mi − nx 2 ) ∑ n − 1 i =1 n − 1 i =1

eller

4

1 Regning med hændelser Hvis hændelsen A består af udfaldene x1 . A ∩ B = Ø ... B2 . Sandsynlighedsregning og stokastiske variable 2.. så P ( A ∪ B) = P( A) + P( B) P ( A ) = 1 − P( A) Hændelserne A og B er uafhængige. Bn udgør en klassedeling af udfaldsrummet.2. så P ( A) = P( x1 ) + P( x2 ) + . k) I Excel: = COMBIN(n.. + P( Bn ) ⋅ P ( A | Bn ) I et symmetrisk sandsynlighedsrum: antal elementer i A antal gunstige P ( A) = = antal elementer i udfaldsrummet antal mulige Antal permutationer: n! (k ) = nP = n k (n − k )! Antal kombinationer: (binomial-koefficienter) ⎛n⎞ n! n Ck = ⎜ ⎟ = ⎜ x ⎟ k!⋅(n − k )! ⎝ ⎠ I Excel: =PERMUT(n.. så er P ( A) = P( B1 ) ⋅ P( A | B1 ) + P( B2 ) ⋅ P( A | B2 ) + . k) 5 . dvs.. + P( xn ) P ( A ∪ B) = P( A) + P( B ) − P( A ∩ B) Hvis A og B er disjunkte. så er P ( A | B) = 0 ) P( B) P( B) P ( B | A) = P( A | B) ⋅ (Bayes' formel) P( A) Hvis B1 . hvis og kun hvis P ( A ∩ B) = P( A) ⋅ P( B) Betingede sandsynligheder: P( A ∩ B) P( A | B) = (hvis P( B) = 0 .... xn . x2 . . .

Middelværdi: EX = μ X = ∑ x ⋅ P ( X = x) Varians: Var ( X ) = ∑ x 2 P( X = x) − ( EX ) 2 = E ( X 2 ) − ( EX ) 2 Spredning: σ X = Var ( X ) = E ( X 2 ) − ( EX ) 2 Der gælder følgende regneregler: E ( X + Y ) = EX + EY E (kX ) = k ⋅ EX E ( X − Y ) = EX − EY . hvor k er en konstant Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X . man finder i tabellerne. Y ) Var ( X − Y ) = Var ( X ) + Var (Y ) − 2Cov( X .2. For en diskret stokastisk variabel X har vi: tæthedsfunktionen (eller sandsynlighedsfunktionen): f X ( x) = P ( X = x) fordelingsfunktionen (eller den kumulerede sandsynlighedsfunktion) FX ( x) = P ( X ≤ x) = ∑ f X ( y ) y≤ x Som regel er det de kumulerede sandsynligheder. temperatur) er som regel kontinuerte stokstiske variable. er altid diskrete. eller som kun kan antage adskilte værdier. så derfor gælder (hvis X kun kan antage heltallige værdier) P ( X = x) = P ( X ≤ x) − P( X ≤ x − 1) = FX ( x) − FX ( x − 1) P ( X ≥ x) = 1 − P( X < x) = 1 − P ( X ≤ x − 1) = 1 − FX ( x − 1) P (a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a − 1) = FX (b) − FX (a − 1) men i praksis er det nok lettere at beregne disse værdier i Excel. som angiver et antal. Y ) Var (kX ) = k 2Var ( X ) . Generelle målinger (størrelse. vægt.2 Diskrete stokastiske variable Stokastiske variable. hvor k er en konstant 6 .

n. og andelen af 'gunstige' elementer kaldes p eller i de såkaldte binomialsituationer. p) ⎛n⎞ n! p k (1 − p) n − k . n. hvis n > 20 . n Tæthedsfunktionen P ( X = k ) = ⎜ ⎟ p k (1 − p) n − k = ⎜k ⎟ k!(n − k )! ⎝ ⎠ Middelværdien er EX = np Spredningen er σ( X ) = np (1 − p ) I Excel findes binomial-sandsynlighederne ved formlerne: P( X ≤ k ) =BINOMDIST( k.. Beregninger i binomial-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er binomialfordelt med parametrene antalsparametren n= sandsynlighedsparametren p= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . p.. så skyldes det ugyldige værdier. Bemærk.. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast n indtast p #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af n og p i de violette felter. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. disse rækker.1 Binomialfordelingen Binomialfordelingen anvendes enten ved stikprøver med tilbagelægning populationen består af n elementer.. at hvis der står #NUM! i nogle af cellerne efter beregningerne.2. 7 . 2.. 19 20 P(X≤k) #VALUE! #VALUE! . 1. X er altså binomial-fordelt. x = 0. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – BINOMDIST( k–1. Slet evt. p. TRUE) P( X = k ) =BINOMDIST( k. n. TRUE) Se endvidere CKStat's værktøj: Beregninger i binomialfordelingen.. #VALUE! #VALUE! P(X≥k) 1. #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . karakteriseret ved: et basiseksperiment.2. ...0000 #VALUE! .. uafhængigt af hinanden (n kaldes antalsparametren) I begge tilfælde angiver X antallet af successer eller gunstige elementer. p.. X ≈ bin(n. nemlig at k>n. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.. hvori der kun er to mulige udfald ('succes' og 'fiasko') sandsynligheden for succes er p (sandsynlighedsparametren) basiseksperimentet gentages n gange.

..2. at hvis der står #NUM! i nogle af cellerne efter beregningerne.2. M. #VALUE! #VALUE! P(X≥k) 1. X ≈ hyp( N . men CKStat's værktøj Beregninger i den hypergeometriske fordeling kan med fordel anvendes.. 8 . nemlig at k>n. M . Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.0000 #VALUE! . Bemærk. så skyldes det ugyldige værdier.. 1. Beregninger i den hypergeometriske fordeling Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er hypergeometrisk fordelt med parametrene populationsstørrelse N= antal defekte i alt M= stikprøvestørrelsen n= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 . X er altså hypergeometrisk-fordelt. k. n) ⎛M ⎞ ⎛N − M ⎞ ⎜ ⎟⋅⎜ ⎜ k ⎟ ⎜ n−k ⎟ ⎟ ⎠ . M og p i de violette felter. n Tæthedsfunktionen er P ( X = k ) = ⎝ ⎠ ⎝ ⎛N⎞ ⎜ ⎟ ⎜n⎟ ⎝ ⎠ M M (med p = ) Middelværdien er EX = n = np N N M M M N −n N −n (med p = ) Spredningen er σ( X ) = n (1 − ) = np (1 − p ) N N N N −1 N −1 I Excel findes sandsynlighederne ved formlen: P( X = k ) =HYPGEOMDIST( x. Slet evt. ...2 Den hypergeometriske fordeling Den hypergeometriske fordeling anvendes ved stikprøver uden tilbagelægning populationen består af N elementer heraf er M elementer gunstige stikprøven er på n elementer X angiver antallet af gunstige elementer. hvis n > 20 .... N) Man kan ikke finde de kumulerede sandsynligheder direkte ved en formel... #VALUE! #VALUE! P(X=k) #VALUE! #VALUE! . 2. x = 0. 19 20 P(X≤k) #VALUE! #VALUE! . disse rækker. #VALUE! #VALUE! EX= Var(X)= σ(X)= indtast N indtast M indtast n #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdierne af N.

er uafhængige. #VALUE! EX= Var(X)= σ(X)= indtast λ #VALUE! #VALUE! #VALUE! Konlusion: Skriv din konklusion her Indtast værdien af λ i det violette felt. som ikke overlapper hinanden. 20 P(X≤k) #VALUE! #VALUE! . #VALUE! P(X=k) #VALUE! #VALUE! . Bemærk. forudsat at disse hændelser sker ved en Poisson-proces: a) For et lille tidsrum er sandsynligheden for at der sker en hændelse kun afhængig af tidsrummets størrelse og proportional med tidsrummets længde... k = 0. TRUE) P( X = k ) =POISSON( k. og hvis Y angiver antal hændelser i en time. λ .3 Poisson-fordelingen Poisson-fordelingen anvendes til at måle antal indtrufne hændelser i et givet tidsrum. at hvis fx.. X angiver da antal hænder i det givne tidsrum (som gerne må være stort).2. Alle sandsynligheder vil så blive regnet ud i tabellen nedenfor. #VALUE! P(X≥k) 0. k! EX = λ Middelværdien er Spredningen er σ( X ) = λ I Excel findes Poisson-sandsynlighederne ved formlerne: P( X ≤ k ) =POISSON( k. da vi kan forvente 60 gange så mange hændelser på en time som i et minut. X ≈ Po(λ ) . . b) Det er meget usandsynligt.. e − λ λk Tæthedsfunktionen er P( X = k ) = . så er Y ≈ Po(60 ⋅ λ ) .. FALSE) P ( X ≥ k ) = 1 − P( X ≤ k − 1) =1 – POISSON( k–1. λ .. Om nødvendigt kan man indsætte flere rækker og kopiere rækkerne i tabellen ned.0000 #VALUE! . X angiver antal hændelser i et minut.2. hvor parametren λ er det forventede antal hændelser i vores tidsrum. λ . TRUE) Se endvidere CKStat's værktøj: Beregninger i Poissonfordelingen: Beregninger i Poisson-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er Poisson-fordelt med parameteren forventet antal begivenheder λ= Middelværdi Varians Spredning Tabel over sandsynligheder for X: k 0 1 .. 1.. at der sker mere end en hændelse i samme lille tidsrum c) Antallet af hændelser i to tidsrum. 2... og X ≈ Po(λ ) . 9 .

4 Normalfordelingen Normalfordelingen er en kontinuert stokastisk variabel. μ. Standardnormalfordelingen har μ = 0 og σ = 1 . σ. at gennemsnittet af disse 1 X = ( X 1 + X 2 + . σ) er n ens fordelte.NORMDIST(a. TRUE) = NORMDIST(b. n 10 .1) ... uafhængige normalfordelte sokastiske variable (stikprøver) Hvis X 1 . at hvis X ≈ N (μ..NORMDIST(x.. så ⎛ x−μ⎞ FX ( x) = P( X ≤ x) = Φ⎜ ⎟ ⎝ σ ⎠ ⎛ x−μ⎞ P ( X ≥ x) = 1 − P ( X ≤ x ) = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎛ a −μ⎞ ⎛b−μ⎞ P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = Φ ⎜ ⎟ ⎟ − Φ⎜ ⎝ σ ⎠ ⎝ σ ⎠ I Excel: P( X ≤ x) P( X ≥ x) P ( a ≤ X ≤ b) = NORMDIST(x. TRUE) . σ. μ. TRUE) Flere ens fordelte. X n ≈ N (μ.2. σ. σ) .. man anvender i praksis og som er tabellagt. uafhængige stokastiske variable. og vi skriver Z ≈ N (0. For standardnormalfordelingen gælder 1 − 12 x 2 f Z ( x) = φ( x) = e (tæthedsfunktionen) 2π x 1 − 12 t 2 (fordelingsfunktionen) FZ ( x) = Φ ( x) = ∫ e dt −∞ 2π Det er funktionen Φ . σ. μ. + X n ) n σ er normalfordelt med middelværdien μ og spredningen . og derfor gælder der lidt andre regler end for de diskrete stokastiske variable: P( X = x) = 0 P ( X ≥ x) = P ( X > x) = 1 − P ( X ≤ x) = 1 − P ( X < x) Normalfordelingen beskrives ved to parametre: middelværdien μ og spredningen σ . X 2 ..2. så gælder der. TRUE) = 1. μ. I Excel: Φ (x) =NORMSDIST(x) −1 Φ ( x) =NORMSINV(x) (omvendt tabelopslag) For alle andre normalfordelinger har vi.

11 .Se CKStats skabelon Beregninger i Normalfordelingen: Beregninger i normal-fordelingen Den stokastiske variabel X angiver: Skriv beskrivelse af X her X er normalfordelt med parametrene middelværdien spredningen Beregninger af sandsynligheder for X: a= P(X≤a) P(X≥a) a= b= P(a≤X≤b) indtast a #VALUE! #VALUE! indtast a indtast b #VALUE! μ= σ= indtast μ indtast σ Indtast middelværdien og spredningen i de første violette celler. I forbindelse med hypotesetest får man brug for tabeller for både den kumulerede standardnormalfordeling. ErlangS. Disse kan enten beregnes i Excel som ovenfor eller slås op i en statistik tabel. og værdier for a og b nedenunder.eks. som f. Φ . og den inverse fordeling. Forskellige sandsynligheder beregnes nu.

Vi giver en lille oversigt: Binomialfordelingen X ≈ (n.2.2. så kan vi approximere med normalfordelingen: ⎛ k + 0. så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎝ ⎠ Poisson-fordelingen X ≈ Po(λ ) Hvis λ ≥ 10 . så kan vi apprixomere med normalfordelingen: ⎛ k + 0.5 − λ ⎞ P ( X ≤ k ) = Φ⎜ ⎟ λ ⎝ ⎠ 12 . så kan vi approximere med Poissonfordelingen: Y ≈ Po(np) og P ( X ≤ k ) = P(Y ≤ k ) Den hypergeometriske fordeling X ≈ hyp( N .5 Approximationer I mange situationer kan man approximere en foreling med en anden.1 . så kan vi apprixomere med binomialforelingen: S Y ≈ bin(n. n) a) Hvis n / N ≤ 0. p) a) Hvis n ≥ 50 og np (1 − p) ≥ 9 . S . ) og P ( X ≤ k ) = P(Y ≤ k ) N b) Hvis n ≥ 50 og np (1 − p) ≥ 9 .5 − np ⎞ ⎟ P ( X ≤ k ) = Φ⎜ ⎜ np(1 − p) ⎟ ⎠ ⎝ b) Hvis n ≥ 50 og np ≤ 7 .

Der er tre tilfælde: a) Normalfordeling med kendt populationsspredning σ z σ x ± α/2 n Stor stikprøve ( n ≥ 30) zα / 2 s n Der stilles altså ingen krav til fordelingen eller til kendskab til populationens spredning. og som regel vælger vi at snakke om 95% konfidensintervaller.3 Konfidensintervaller Generelt angiver vi et estimat for en størrelse på to måder – som et punktestimat (et tal). jo mere usikre er vi på resultatet. 13 . x± b) c) Normalfordeling. z σ Formlerne nedenfor angives på følgende måde: x ± α / 2 n men man kunne lige så godt skrive konfidensintervallet som x− zα / 2 σ z σ ≤ μ ≤ x + α/2 n n eller zα / 2 σ zα / 2 σ ⎡ ⎤ ⎥x − n .α / 2 s n Vi erstatter altså her normalfordelingsfraktilen med en t-fraktil med n − 1 frihedsgrader. at den sande værdi for den estimerede størrelse ligger i dette interval. Konfidensintervaller angives altid med et vist konfidensniveau. Jo bredere intervallet er. 1 − α . at vi er 95% sikre på. og et intervalestimat (eller et konfidensinterval). ukendt populationsspredning x± t n −1. Konfidensintervallet fortæller noget om.1 Konfidensintervaller for middelværdi Vi har en stikprøve for en population.1 Simple stikprøver Samtlige konfidensintervaller i deenne sektion kan udregnes vha. Sørg for at finde den rigtige skabelon. x + n ⎢ ⎦ ⎣ 3. især ved konfidensintervaller for middelværdier. og kender stikprøvens størrelse n og gennemsnit x (som jo er punktestimatet for middelværdien) og enten spredningen σ for populationen eller stikprøvens standardspredning s. hvor sikre vi er på estimatets størrelse: Som regel angiver vi et 95%-konfidensinterval og siger hermed.1. 3. CKStat's skabelon.

hvor s = n1 ⋅ n2 n1 + n2 − 2 Vi bør forinden teste. n1 ≥ 30 og n2 ≥ 30 . med værdierne: stikprøvestørrelse gennemsnit standardafvigelse population I n1 x1 s1 population II n2 x2 s2 Vi vil opstille et konfidensinterval for forskellen på middelværdierne μ1 − μ 2 . at populationerne har samme varians. dvs.1−α / 2 n 14 . Konfidensintervallet for variansen σ 2 er da (n − 1) s 2 (n − 1) s 2 < σ2 < 2 χ 2 −1. hvoraf vi har udtaget to uafhængige stikprøver.2.3 Konfidensinterval for varians Vi har en normalfordelt population. (n1 − 1) s1 + (n2 − 1) s2 n +n ( x1 − x2 ) ± t nx + x y − 2. og populationsspredningerne behøver ikke at være kendte.1. c) To normalfordelinger med samme spredning.α / 2 s 1 2 . Der er tre tilfælde: a) Populationerne er normalfordelte med kendte populationsspredninger σ1 og σ 2 ( x1 − x2 ) ± zα / 2 b) σ1 σ 2 + n1 n2 2 2 Stikprøverne er store. og en stikprøve herfra med størrelsen n og spredningen s. 2 2 3.1.2 Konfidensinterval for forskellen mellem middelværdier Her har vi to populationer. Dette gøres ved testen (4.3.5 Vi anvender her t-fordelingen med n1 + n2 − 2 frihedsgrader. {xi } og { y j } .α / 2 χ n −1. ( x1 − x2 ) ± zα / 2 s1 s2 + n1 n2 2 2 Der stilles ingen krav til fordelingerne.

3. x ˆ p= Punktestimatet for p er n ˆ ˆ p (1 − p ) ˆ Intervalestimatet for p er p ± zα / 2 n −1 3. n 15 . n1 .6 Konfidensintervaller for totale størrelser a) Konfidensinterval for total mængde Vi har en population med N elementer.1c. Vi har en stikprøve på n elementer med genenmsnittet x og spredninge s.α / 2 n N −1 (svarende til tilfælde 3.1. Det forudsættes. n2 ≥ 40 . middelværdi μ og spredning σ.1.1. Vi har en stikprøve på n elementer. Tilsvarende formler gælder for de andre tilfælde).4 Konfidensinterval for andel Vi har en population af størrelsen N. Vi har en stikprøve på n elementer. Forskellen på to populationsandele kan da intervalestimeres ved ˆ ˆ ˆ ˆ p ( p − 1) p2 ( p2 − 1) ˆ ˆ + ( p1 − p2 ) ± zα / 2 1 1 n1 − 1 n2 − 1 3.1. hvoraf x har egenskaben. hvoraf x besider egenskaben. hvoraf en andel p besidder en vis egenskab. hvoraf p har en vis egenskab.5 Konfidensinterval for forskel mellem andele To stikprøver på n1 og n2 elementer. estimeres ved Nx og har et konfidensinterval på s N −n N x ± Nt n −1. Den totale mængde i populationen er givet ved Nμ . Konfindensinterval for antal med egenskab Vi har en population med N elementer. b) ˆ Det totale antal i populationen med egenskaben er da Np og estimeres som Np = N Konfidensintervallet er ˆ ˆ p (1 − p ) N − n ˆ Np ± Nzα / 2 n −1 N −1 x . af n ≥ 40 .

1 Stratificerede stikprøver med middelværdi I en stratificeret stikprøve er populationen opdelt i k strata.3. og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N = den samlede populationsstørrelse N i = størrelsen af stratum i n = stikprøvens samlde størrelse ni = antallet af elementer i stikprøven fra stratum i xi = det observerede gennemsnit i stratum i si = den observerede spredning i stratum i si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan beregnes: 1 k xst = ∑ N i xi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 2 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ xst − zα / 2 σ st < μ < xst + zα / 2 σ st Et konfidensinterval (intervalestimat) for Nμ (den samlede mængde) er ˆ ˆ Nxst − Nzα / 2 σ st < Nμ < Nxst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (middelværdi) kan med fordel anvendes.2 Stratificerede stikprøver 3.2. 16 .

3.2 Stratificerede stikprøver med andele I en stratificeret stikprøve er populationen opdelt i k strata. 17 . og vi kender en række størrelser for hvert af disse strata og for situationen i almindelighed: N Ni n ni ˆ pi = den samlede populationsstørrelse = størrelsen af stratum i = stikprøvens samlde størrelse = antallet af elementer i stikprøven fra stratum i = den observerede andel i stratum i 2 2 ˆ ˆ si = pi (1 − pi ) = den observerede spredning i stratum i (beregnes) si N i − ni ⋅ (en hjælpestørrelse for hvert stratum) ni Ni Herudfra kan vi beregne 1 k ˆ ˆ pst = ∑ N i pi = det samlede gennemsnit og punktestimatet af middelværdien N i =1 1 k 2 ˆ 2 ˆ 2 σ st = 2 ∑ N i σ j = den samlede varians for middelværdien N i =1 ˆ 2 σj = Et konfidensinterval (intervalestimat) for μ er da ˆ ˆ ˆ ˆ pst − zα / 2 σ st < p < xst + zα / 2 pst ˆ Et konfidensinterval (intervalestimat) for Np (den samlede mængde) er ˆ ˆ ˆ ˆ ˆ Npst − Nzα / 2 σ st < Np < Npst + Nzα / 2 σ st CKStat's menupunkt Stratificeret stikprøve (andele) kan med fordel anvendes.2.

dvs. strata med stor spreding får et større antal end evd proportional allokering. Stikprøven fordeles således. at sprednngen minimeres. dvs.2. N i σi ni = n N jσ j ∑ Kender vi ikke spredningerne . kan disse estimeres: Ved middelværdier: N i si ni = n ∑ N jsj Ved andele: ni = ˆ ˆ N i pi (1 − pi ) n ˆ ˆ ∑ N j p j (1 − p j ) CKStat's værktøjer Stratificeret stikprøve (middelværdi) og Stratificeret stikprøve (andel) beregner disse størrelser. 18 . på flere forskellige måder. fordele stikprøven ud på de enkelte strata.3 Allokeringstrategier Ved gennemførelsen af en ny stratificeret stikprøve kan man allokere. Proportional allokering: Stikprøvens størrelse fordeles ud påde enkelte strata porportionalt med stratummets andel af den samlede population: N ni = i n N Optimal allokering: Her skal vi kende spredningen i det enkelte stratum.3.

om 'nulværdien' ligger heri. om der er tale om en ensidet test ( H 0 : μ ≥ μ 0 ) eller en tosidet test ( H 0 : μ = μ 0 ) Ved tosidede tests er nulypotesen altid af formen H 0 : μ = μ 0 og alternativhypotesen derfor af formen H A : μ ≠ μ 0 .4. mens H A er. Ved test for middelværdi. gerne vha. nulhypotesen H 0 og alternativhypotesen H A . eller gerne begge dele. Husk at opskrive relevante formler. Ved ensidede tests er nulhypotesen altid af formen H 0 : μ ≥ μ0 eller H 0 : μ ≤ μ0 og alternativhypotesen derfor af formen H A : μ < μ 0 henholdsvis H A : μ > μ 0 . men som sagt er begge dele ikke nødvendige. 2) 3) Opskriv eventuelle forudsætninger for. Endvidere bør observationerne understøtte H A . sammen med en beregning af p-værdien. CKStat. 4) 5) De fleste lærebøger skelner mellem tre metoder. om alle forudsætningerne for testen faktisk gjaldt. 19 . så bør følgende fremgangsmåde anvendes: 1) Opstil. Ved P-metoden beregner man testens p-værdi og sammenligner med signifikansniveauet. idet både test-størrelse og kritiske værdier beregnes og indtegnes. varians og andel bør man undersøge. og at vedlægge udskrift af relevante bregninger i Excel. Følgende regler bør overholdes: H 0 og H A bør udelukke hinanden.1 Generelt om hypotesetests Når man skal løse en opgave med hypotesetests. der fortæller mest om situationen. Se de relevante tests for yderligere oplysninger. Undersøg. Med mindre andet oplyses. spredning. eller ved at se på p-værdien. ud fra opgaveteksten. og undersøg evt. hvorpå man kan afgøre testens accept eller forkast – men disse tre metoder er i virkeligheden fuldstændigt ens: Ved KI-metoden beregner man et 1− α konfidensinterval og ser. CKStat's skabeloner anvender både KV. Undersøg. Beregn teststørrelsen og p-værdien. om H 0 accepteres eller forkastes – enten ved at sammenligne teststørrelsen med relevante fraktiler. at H 0 ikke gælder. og der bør ikke være en tredie mulighed.og P-metoderne. Ved goodness-of-fit tests og tilsvarede er H 0 den hypotese. at testen kan anvendes. så bør man regne med et signifikansniveau på α = 5% Skriv en konklusion i ord på resultatet af testen – og vurdér gerne p-værdien i forhold til testens signifikansniveau. Ved KV-metoden sammenligner man teststørrelsen med de relevante fraktiler (de kritiske størrelser). disse.

nemlig standardafvigelsen s.2. spredning og andel 4. enten grafisk (4. Vi ønsker at sammenligne middelværdien med en fast størrelse. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.1c) i stedet. ud fra stikprøven.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 σ/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ (z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4. om vi har en normalfordeling. Der er i virkeligheden tale om hele tre forskellige tests.a Normalfordeling med kendt varians Selve testen: Findes i tre varianter.3. og vi kender enten den sande spredning σ for den stokastiske variabel. 4.1a : Normalfordeling med kendt varians 4.2.1c : Ukendt fordeling. stor stikprøve Man kan forinden teste.3. Vi kender stikprøvestørrelsen n. ud fra en stikprøve. eller anvende test (4. test evt. alt efter nul.1 Test for middelværdi Anvendelse: Vi ønsker at sige noget om middelværdien af en stokastisk variabel. dette vha.1) eller på anden vis (4. som jo er et estimat for middelværdien μ . (4.2 Test for middelværdi.4. 4. σ/ n Forudsætninger: a) Vi skal have en normalfordeling.2. μ 0 .1b : Normalfordeling med ukendt varians 4. 20 .4).4) b) Spredningen (eller variansen) skal være kendt. at efter. hvad vi ved om situationen. varians.2. eller et estimat herfor.2. stikprøvens gennemsnit x .1.2.4.1) eller (4.

c Ukendt fordeling.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .α − t n−1.n −1 (t ) beregnes som =TDIST(ABS( t). s/ n Forudsætninger: Vi skal have en normalfordeling.α / 2 − t n −1.α / 2 > t t > t n −1. σ/ n Forudsætninger: Stikprøven skal være stor.α / 2 < t < t n −1.α / 2 > t eller t > t n −1.b Normalfordeling med ukendt varians Selve testen: Findes i tre varianter.4.α / 2 < t − t n −1.2.1.og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 x − μ0 s/ n FT . n ≥ 40 .og alternativ-hypotesen: H0 μ = μ0 μ ≥ μ0 HA Teststørrelse μ ≤ μ0 μ > μ0 μ ≠ μ0 μ < μ0 z= x − μ0 s/ n p-værdi Accept Forkast 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. alt efter nul.2.3. n–1.n −1 (t ) t= p-værdi Accept Forkast 2 FT .α / 2 Husk. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningen eller variansen 21 .4. stor stikprøve Selve testen: Findes i tre varianter. alt efter nul. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. dvs. 1) 4.n −1 (t ) t < t n −1.α / 2 − t n −1. at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen z = er altid standard-normalfordelt.1. (4. dette vha.1) eller (4. test evt.n −1 (− | t |) 1 − FT .

1− α / 2 χ χ 2 > χ 2 n −1.α / 2 χ 2 n −1.4.2 Test for varians eller spredning Anvendelse: Vi har en række normalfordelte observationer og vil undersøge variansen eller spredningen af dise observationer.1−α / 2 > χ 2 eller χ 2 > χ 2 n −1.3.og alternativ-hypotesen: H0 σ = σ0 σ ≥ σ0 HA Teststørrels e σ ≤ σ0 σ > σ0 σ ≠ σ0 σ < σ0 χ2 = (n − 1) s 2 2 σ0 Accept Forkast χ 2 n −1. at alternativhypotesen skal understøtte de observerede data! (n − 1) s 2 er altid χ 2 -fordelt med n − 1 frihedsgrader.α / 2 kan beregnes i Excel som =CHIINV( α / 2 .1−α / 2 < χ 2 < χ 2 n −1. Selve testen: Findes i tre varianter. alt efter nul. Teststørrelsen χ 2 = 2 σ0 > χ2 Forudsætninger: Data skal være normalfordelt – dette testes vha. Beregninger: χ 2 -fraktilen χ 2 n −1.α / 2 2 n −1.α / 2 χ 2 n −1. (4.6).α / 2 Husk. 22 .2.1−α / 2 < χ 2 χ 2 < χ 2 n −1.n-1).

alt efter nul. store stikprøver Der forekommer et tal D i hypoteserne.2. Men hvis man f.a Normalfordelinger med kendte varianser Selve testen: Findes i tre varianter. Dette tal er en konstant. hvad vi ved om situationen. 23 . at alternativhypotesen skal understøtte de observerede data! x −x −D Teststørrelsen z = 1 2 er altid standard-normalfordelt. 4. test evt.4.4.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk. om den ene middelværdi er mindst 3 større end den anden.2. ud fra stikprøven.eks. og man vælger som regel D = 0 for at få en direkte sammenlining. (4. så skal vi teste for μ1 ≥ μ 2 + 3 . Vi kender stikprøvestørrelserne n1 og n2 . dette vha. f.eks. dvs. men ens varianser 4. 4. 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: a) Vi skal have normalfordelinger.1) eller (4.2. og vi kender enten de sande spredninger σ1 og σ 2 eller et estimaterne herfor.2. μ1 ≤ μ 2 + D . skal teste.3.3c : Ukendt fordelinger. D = 3. s1 eller s2 .3b : Normalfordeling med ukendte. Der er i virkeligheden tale om hele tre forskellige tests.4) b) Spredningerne (eller varianserne) skal være kendt. stikprøvernes gennemsnit x1 og x2 x . ud fra to stikprøver.3 Test for forskellen mellem to middelværdier Anvendelse: Vi ønsker at sammeligne om middelværdierne for to stokastisk variabel.3. at efter.2.3a : Normalfordelinger med kendte varianser 4.

n1 + n2 − 2 2 2 Forudsætninger: Vi skal have en normalfordeling.4. fælles varians Selve testen: Findes i tre varianter.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT .n1 + n2 − 2 (t ) beregnes som =TDIST(ABS( t).α / 2 > t 1 − FT . test evt.n1 + n2 − 2 (t ) t < t n1 + n2 − 2. n1+n2–2. Teststørrelsen t = 1 2 n1 + n2 s n1 ⋅ n2 Størrelsen s 2 = (n1 − 1) s1 + (n2 − 1) s2 kaldes den poolede varians.α / 2 < t < t n1 + n2 − 2.α / 2 FT .3.α / 2 < t − t n1 + n2 − 2.b Normalfordelinger med ukendt varians.n1 + n2 − 2 (t ) − t n1 + n2 − 2.3. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid T-fordelt med n1 + n2 − 2 frihedsgrader.4.α / 2 t > t n1 + n2 − 2.1) eller (4. dette vha.α / 2 Accept Forkast Husk. alt efter nul.n1 + n2 − 2 (− | t |) − t n1 + n2 − 2.2. (4. 1) 24 .og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D t= 1 2 n +n s 1 2 n1 ⋅ n2 p-værdi 2 FT .α / 2 > t eller t > t n1 + n2 − 2.α / 2 − t n1 + n2 − 2.

n ≥ 40 .2.c Ukendte fordelinger.5) 25 .4. (4. stor stikprøve Selve testen: Findes i tre varianter.2. alt efter nul. Der er ingen krav til fordelingen Der er ingen krav om kendskab til spredningerne eller varianserne. at alternativhypotesen skal understøtte de observerede data! x −x −D er altid standard-normalfordelt. dvs.3. Teststørrelsen z = 1 2 2 2 σ1 σ 2 + n1 n2 Forkast Forudsætninger: Stikprøverne skal være store. Varianserne skal være ens – dette kan testes vha.og alternativ-hypotesen: H0 μ1 = μ 2 + D μ1 ≥ μ 2 + D HA Teststørrelse μ1 ≤ μ 2 + D μ1 > μ 2 + D μ1 ≠ μ 2 + D μ1 < μ 2 + D x −x −D z= 1 2 2 2 σ1 σ 2 + n1 n2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 Φ( z ) z > − zα / 2 1 − Φ( z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.

d i = yi − x1 .1) eller (4. test evt.α − t n−1.n −1 (− | t |) d < d0 d − d0 t= s/ n FT .α / 2 Husk.eks. 1) 26 . s/ n Forudsætninger: Vi skal have en normalfordeling.α / 2 < t < t n −1. forskellen på middelværdier Anvendelse: Vi har en række observationer af sammenhørende stokastiske variabler. Selve testen: Selve testen: Findes i tre varianter.n −1 (t ) beregnes som =TDIST(ABS( t).3. alt efter nul.2. xi og yi .α / 2 > t t > t n −1. vi har to rækker af n tal.4 Parvis sammenligning.4. Vi har gennemsnittet d heraf.α / 2 Accept Forkast − t n −1. en persons kolesteroltal før og efter indtagelen af en bestemt type medicin). og vil undersøge deres differenser.α / 2 − t n −1.α / 2 < t − t n −1. (4. dette vha.n −1 (t ) 1 − FT . Endvidere kender vi standardspredningen s af d i 'erne. og ønsker at undersøge middelværdien d af denne forskel.n −1 (t ) t < t n −1.4.4) Der er ingen krav om kendskab til spredningen eller variansen Beregninger: I Excel kan tallet FT . at alternativhypotesen skal understøtte de observerede data! x − μ0 Teststørrelsen t = er altid T-fordelt med n − 1 frihedsgrader. hvir vi har obsrveret før og efter en given ændring (f.α / 2 > t eller t > t n −1. Vi ønsker at undersøge forskellen mellem de to sammenhørene observationer. Kort sagt.og alternativ-hypotesen: H0 d = d0 d ≥ d0 HA Teststørrelse d ≤ d0 d > d0 d ≠ d0 p-værdi 2 FT . n–1.

α / 2 kan beregnes i Excel som =FINV( α / 2 . Selve testen: Beregningerne er lettere. n1-1.n2 − 2.α / 2 F < Fn1 −1.n2 −1. (4.4. s1 > s2 .α / 2 F > Fn1 −1. alt efter nul. n2-1) 27 . om spredningerne eller varianserne er ens.5 Test for forskellen mellem to varianser Anvendelse: Vi har stikprøver fra to normalfordelte populationer.α Husk at bytte om på de to stikprøver! Husk.n2 −1.2. og vil teste.og alternativ-hypotesen: H0 σ1 = σ 2 σ1 ≥ σ 2 σ1 ≤ σ 2 HA Teststørrels e σ1 ≠ σ 2 σ1 < σ 2 F= s1 2 s2 2 σ1 > σ 2 Accept Forkast F < Fn1 −1.3.α F > Fn1 −1.n2 −1. s2 Forudsætninger: Data skal være normalfordelt – dette testes vha. Beregninger: F-fraktilen Fn1 −1. at alternativhypotesen skal understøtte de observerede data! 2 s Teststørrelsen F = 1 2 er altid F-fordelt med n1 − 1 .n2 −1. n2 − 1 frihedsgrader.6). således at stikprøve 1 har den største observerede spredning. bytter om på stikprøverne. hvis vi evt. Findes i tre varianter.

28 . at alternativhypotesen skal understøtte de observerede data! ˆ p − p0 er altid standard-normalfordelt. Selve testen: Findes i hele tre varianter. som besidder egenskaben. Beregninger: CKStat's menupunkt Test for andel giver følgende skabelon: Test for andel Stikprøvestørrelse (n) Antal (x) Estimeret andel (p^) Formodet andel (p0) Teststørrelse (z) H0 p=p0 p<=p0 p>=p0 xxxxx xxxxx #VALUE! xxxxx #VALUE! HA p<>p0 p>p0 p<p0 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelsen n. det observerede antal x og den formodede andel p0 . p0 . alt efter nul.og alternativ-hypotesen: H0 p = p0 p ≥ p0 p ≤ p0 HA Teststørrelse p ≠ p0 p < p0 z= p > p0 ˆ p − p0 p0 (1 − p0 ) / n Φ( z ) z < zα / 2 p-værdi Accept 2Φ (− | z |) − zα / 2 < z < zα / 2 1 − Φ( z ) z > − zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.6 Test for andel Anvendelse: Vi har en population. hvoraf x har egenskaben. n ≥ 40 . Estimatet for p er da p = n . Derefter kan teststørrelsen z og den relevante p-værdi aflæses. Vi ønsker at sammenligne med en fast andel. Teststørrelsen z = p0 (1 − p0 ) / n Forkast Forudsætninger: Stikprøven skal være stor. ˆ x Vi har altså en stikprøve på n individer.2. hvori nogle af medlemmerne besidder en vis egenskab. Vi vil undersøge størrelsen af den andel p af populationen. dvs.4.

Selve testen: Findes i hele tre varianter. hvoraf x1 og x2 har egenskaben.7 Test for forskellen mellem to andele Anvendelse: Vi har to population. n1 + n2 ˆ ˆ p0 (1 − p0 ) ⋅ n1 ⋅ n2 Forudsætninger: Stikprøverne skal være store. at alternativhypotesen skal understøtte de observerede data! ˆ ˆ p1 − p2 Teststørrelsen z = er altid standard-normalfordelt. Estimatet for ˆ ˆ p1 og p2 er da p1 = x1 / n1 og p2 = x2 / n2 . n1 ≥ 40 og n2 ≥ 40 . Vi vil undersøge forholdet mellem af de to andele p1 og p2 af populationerne. Beregninger: CKStat's menupunkt Test for forskel mellem andele giver følgende skabelon: Test for forskellen mellem andele Population Stikprøvestørrelser (n) Antal (x) Estimerede andele Fælles andel (p0) Teststørrelse (z) H0 p1 = p2 p1 <= p2 p1 >= p2 1 2 xxxxx xxxxx xxxxx xxxxx #VALUE! #VALUE! #VALUE! #VALUE! HA p1 <> p2 p1 > p2 p1 < p2 p-værdi #VALUE! #VALUE! #VALUE! Heri skal xxxxx'erne erstattes med stikprøvstørrelserne og de observerede antal x. som besidder egenskaben. Vi har altså to stikprøver på n1 og n2 individer. Derefter kan teststørrelsen z og den relevante p-værdi aflæses. 29 . alt efter nul. dvs.og alternativ-hypotesen: H0 p1 = p2 p1 ≥ p2 p1 ≤ p2 HA Teststørrelse p1 < p2 ˆ ˆ p1 − p2 z= n +n ˆ ˆ p0 (1 − p0 ) ⋅ 1 2 n1 ⋅ n2 2Φ (− | z |) 1 − Φ( z ) − zα / 2 < z < zα / 2 z > − zα / 2 p1 ≠ p2 p1 > p2 x +x ˆ p0 = 1 2 n1 + n2 med p-værdi Accept Forkast Φ (z ) z < zα / 2 z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.4. hvori nogle af medlemmerne besidder en vis egenskab. Vi ønsker at sammenligne disse to.2.

som fortolkes og anvendes på vanlig vis. Beregninger: Beregingerne er komplicerede.91667 792 874.. Vi har en række stikprøver. én fra hver population.2.4. = μ m H A : Mindst én af middelværdierne er forskellig fra de andre.8 Variansanalyse Anvendelse: Vi har en række populationer. men foretages let vha.5 6 3 2 20 4 0 ANOVA Source of Variation Between Groups Within Groups Total SS 82. (Kan kontrolleres ved test (4.5). som alle er normalfordelte. Selve testen: Hypoteserne er altid: H 0 : μ1 = μ 2 = . Kan kontrolleres ves test (4. 30 .471117 0.1)) Alle varianserne skal være ens (varianshomogenitet). (0.638871).2. hvor vi sammenligner den mindste og den største af stikprøvernes spredninger.256492 9 88 11 og det mest interessante tal er hér p-værdien i cellen P-value.4. som de har samme middelværdi. og som alle har same varians. og vi vil afgøre. Excels analyse-værktøj ANOVA: SIngle factor. Forudsætninger: Alle populationerne skal være normalfordelte.638871 4.9167 df MS F F crit P-value 2 41.. Resultatet bliver: Anova: Single Factor SUMMARY Groups Column 1 Column 2 Column 3 Count 5 2 5 Sum Average Variance 45 9 197.45833 0.

31 .

bør være mindst 5: Ei ≥ 5 . Hypoteserne er altid (noget i stil med) H 0 : De observerede antal følger det ønskede mønster H A : De observerede antal følger ikke det ønskede mønster. så risikerer man. indtil de forventede antal kommer op over 5. 32 . Ei .4. eller om der er uafhængighed i en kontigenstabel. at teststørrelsen χ 2 bliver for stor. så kanman slå de mindste kategorier sammen. være om et antal observationer af en given stokastisk variabel følger en given fordeling.3 Goodness-of-fit tests ( χ2 -tests) Disse tests anvendes til at undersøge. Der er derfor en stor risiko for at afvise en korrekt nulhypotese. bestående af optællinger af observationer. ikke på de tilsvarende frekvenser eller sandsynligheder. En generel forudsætning i disse tests er. følger et bestemt mønster. inddelt i kategorier.eks. at man tester og regner på de konkrete observerede (og forventede) antal. at de forventede antal. Er denne forudsætning ikke opfyldt. om et givet statistisk materiale. Fælles for alle disse tests er. Det kan f. og dermed den tilsvarende p-værdi for lille. Holder denne forudsætning ikke.

osv. Vi vil gerne teste. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. Resten af de relevante størrelser vil nu blive beregnet automatisk 33 . dvs. og det observeres. Selve testen: Hypoteserne er altid (noget i stil med) H 0 : De faktiske sandsynligheder er lig med de kendte sandsynligheder p1 . bør erstattes af pasende og mere beskrivende kategorititler.1 Test for repræsentativitet / given sandsynlighedsfordeling Anvendelse: 1) Vi har en population. Beregninger CKStat's menupunkt Test for repræsentativitet leverer følgende skabelon: Test for repræsentativitet / given fordeling Kategori Kat1 Kat2 Kat3 Sum Oi xxxxx xxxxx xxxxx pi Ei xxxxx #VALUE! xxxxx #VALUE! xxxxx #VALUE! 0 0. p2 . Ei under nedenstående forudsætninger.. dvs. pn kendes. . De forventede sandsynligheder/andele indtastes i stedet for 'xxxxx' i pi-søjlen. Vi observerer nu en lang række hændelser med hyppighederne Oi i kategori i. De observerede værdier indtastes i stedet for 'xxxxx' i Oi-søjlen. som er opdelt i n kategorier. være χ 2 -fordelt med n − 1 frihedsgrader... en opdeling af hændelser i n kategorier..4. om sandsynlighederne p1 . at der er Oi elementer fra kategori i. Er stikprøven repræsentativ? 2) Vi har en fast sandsynlighedsfordeling. p2 .. Ei > 5 .. En stikprøve udtages. 'Kat2'. Denne vil.. p2 . pn passer med disse observerede antal. Forudsætninger Alle de forventede værdier Ei bør være mindst 5.00% #VALUE! Frihedsgrader Teststørrelse p-værdi 2 #VALUE! #VALUE! Teksterne 'Kat1'....3. pn H A : Mindst én af de faktiske sandsynligheder er ikke lig med den tilsvarende kendte sandsynlighed De forventede værdier Ei beregnes.. Andelene p1 .

bør erstattes af mere sigende kategori-titler. relativt lige mange rygere blandt mændene som blandt kvinderne) Selve testen: Hypoteserne er altid H 0 : Der er uafhængighed i kontigenstabellen. og teststørrelsen χ 2 = ∑ ( Ei − Oi ) 2 beregnes. Ei > 5 . Der er uafhængighed i denne inddeling? (dvs. . hvorpå resten af størrelserne beregnes automatisk. Denne vil Ei være χ 2 -fordelt med (r − 1)(c − 1) frihedsgrader.3. De forventede værdier Ei beregnes..og søjle-overskrifterne "R1". Herefter erstattes "xxxxx" i skemaet med de faktiske. Forudsætninger: Alle de forventede værdier Ei bør være mindst 5. mand/kvinde og ryger/ikke-ryger). Beregninger: CKStat's menupunkt Test for uafhængighed giver nedenstående Excel-skabelon: Test for uafhængighed i kontigenstabel Observerede værdier R1 R2 Sum Forventede værdier R1 R2 Sum Antal søjler Antal rækker Antal frihedsgrader Teststørrelse p-værdi C1 xxx xxx 0 C1 #DIV/0! #DIV/0! #DIV/0! 4 2 3 #DIV/0! #DIV/0! C2 xxx xxx 0 C2 #DIV/0! #DIV/0! #DIV/0! C3 xxx xxx 0 C4 xxx xxx 0 Sum 0 0 0 Sum #DIV/0! #DIV/0! #DIV/0! C3 C4 #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0! Række. "R2" .. 34 . dvs. observerede værdier.eks. hvor der er r kategorier i den ene inddeling og c i den anden.6 Test for uafhængighed i kontigenstabeller Anvendelse: I en population kan individerne inddeles efter to helt forskellige kriterier (f. "C2". og "C1"..4. H A : Der er ikke uafhængighed i kontigenstabellen..

justeres til.00 -2. Forudsætninger: Ingen Beregninger: CKStat's menupunkt Grafisk test for normalitet giver en dialogbox.00 -0.4. så ligger disse punkter tæt omkring den bedste rette linie.50 1. og er der tale om en normalfordeling. Denne kan evt. og der må gerne være tekst eller tomme celler i området.50 -2. at vi tegner et normalfraktildiagram (eller et q-q-diagram). hvori man skal markere de data.4 Andre tests 4. Normalfraktildiagram 2. hvis man ønsker.50 2. Ved klik på OK genereres nogle mellemregninger og selve grafen.00 -1.00 0.4.00 1.50 zi 2 4 6 8 10 12 14 xi 35 .50 0. Stammer disse data fra en normalfordelt population? Selve testen: Hypoteserne er altid H 0 : Data stammer fra en normalfordelt population H A : Data stammer ikke fra en normalfordelt population Testen går ud på.50 0 -1.1 Grafisk test for normalitet Anvendelse: Vi har en måleserie. der skal undersøges. Dette område behøver ikke være kun en søjle eller kun en række.Punkterne på dette diagram repræsenterer vores datasæt.

Add-Ins.1 Excels analyseværktøj Centralt i beregninger med lineær regression står Excels analyseværktøj. og i dialogboksen vælge "Analysis Toolpak" og "Analysis Toolpak VBA" og klikke OK.) Herefter fremkommer en ny dialogboks: 36 . Dette startes ved at vælge menupunkterne Tools. Lineær regression 5.5.Data analysis og i den fremkomne dialogboks vælge Regression: (Findes dette menupunkt ikke. så vælg Tools.

13636 14.86364 0. R squared og Adjusted R Squared er mål for forklaringsgraden: Jo nærmere denne forklaringsgrad er på 1. og sæt et hak i Labels.40909 0. Løst sagt kan man sige.227273 -0.40909 22.40909 0.2.997366 R Square 0. hvor beregningerne skal fremkomme.31818 18. jo mere forklarer modellen.267045 9 406.715 8 2.214879 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 Predicted y 1.2.863636 7. Outputtet bliver noget i stil med: SUMMARY OUTPUT Regression Statistics Multiple R 0.04545 0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.De afhængige variable (y-værdierne) skal angives i Input Y Range.05376 38.863636 -0.19901 1.342547 -1. En kort oversigt: Multiple R.1 Significance F 2. de uafhængige variable (xværdierne) i Input X Range – har man overskrifter på disse.681818 3.380823 2.9636 403.994082 Standard Error 0.59091 Residuals 0.966939 Upper 95% 0.994739 Adjusted R Square 0. så tag dem med. I Output Range skal man vælge det sted på regnearket.22727 16. Det anbefales at sætte de resterene hakker som vist på figuren. som anvendes i 5.045455 -0.9636 1512. at hvis 37 .31818 -0.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.136364 0.19426 0.318182 0.22727 -0.266581 2.772727 5.89364 2.090909 0.954545 10.409091 samt nogle grafer.1E-10 Lower 95% -1.04545 12.

I næste afsnit er der mange interessante tal: Selve modellens koefficienter kan aflæses under Coefficients. på dansk standardfejlen for residualerne. når vi arbejder med simpel lineær regression og skal teste modellens forudsætninger (5. Endeligt indeholder den nederste del residualerne. Først står skæringen med y-aksen (eller konstantleddet). for at modellen er noget værd.forklaringsgraden er på 0. Igen bør disse tal helst være under 5%.2) 38 .97. P-value indeholder p-værdien for hypoteserne "skæringen er 0" og for "den forklarende variabels koefficient er 0. så kan 97% af variationen af den afhængige variabel (y) forklares ved variationerne i de afhængige variable (x'erne) Standard Error.2. variablen er insignifikant". Under ANOVA-delen er det vigtigste tal Significance F – dette tal er p-værdien for hypotesen "Den lineære model er ikke signifikant".eks. Standard Error indeholder standardfejlene for henholdsvis skæringen og for de enkelte forklarende variable. Hvis dette tal er større end f. 5%. så er modellen værdiløs. dernæst koefficienterne for de enkelte forklarende variable (hældningerne). dvs. især ved beregningen af forudsigelsesintervaller. Disse størrelser anvendes ved visse hypotesetests omkring størrelserne af disses koefficienter. som især er interessante.

at vi kan foretage en lineær regression.4. hvis punkterne er spredt jævnt ud over grafen. om punkterne fordeler sig pænt omkring den bedste rette linie i plottet. (4. og udfra disse kan vi vha. og modellen er derfor Y = β0 + β1 X + E hvor β0 er konstantleddet (skæringen med y-aksen) . og der ikke er tendens til f. Residulerne tilbyder Excel at beregne.2 Simpel lineær regression 5. Forudsætning 1 testes ved at tegne et linie-plot. at punkterne er tættere på førsteaksen (dvs. 39 . en parabel). men at punkterne i stedet spreder sig fra observation til observation. hvis der ikke er tendens til.1) teste dette.5.1). Forudsætning3 holder. Igen tilbyder Excel at gøre dette.eks. Forudsætning 2 holder. hvis pukterne fordeler sig pænt omkring en ret linie. β1 er hældningen og E er residualet.eks. et plot af y-værdierne som funktion af xværdierne. Forudsætning 1 holder. Excel tilbyder at gøre dette under analyseværktøjet Lineær Regresion (5. Varianserne for residualerne er uafhængige af den forklarende variabel Residualerne er ikke korrelerede Residualerne er normalfordelte med middelværdi 0. so vi beregner i regressionen: Y = b0 + b1 X + E Forudsætningerne for. at punkterne klumper sig sammen og følger en kurve. så vi behæver blot at konstatere. og der ikke er tendens til at punkterne følger en anden og pænere kurve (f. Forudsætning 4 kan testes ved at lave et normalfraktilplot af residualerne. er altid: 1) 2) 3) 4) Der er faktisk tale om en lineær sammenhæng mellem de to variable.2. mindre residualer) for lave værdier af x. Forudsætningerne 2 og 3 testes ved at tegne residualplottet. den bedste rette linie vil gå gennem kordinatsystemets begyndelsespunkt). og denne graf kan sagtens anvendes. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser. dvs.1 Opstilling af og forudsætninger for den lineære model I den simple lineære regression er der kun én forklarende variabel. Middelværdien vil altid være 0 (dvs.

og s1 s1 er standardfejlen for denne koefficient.090909 0. og i sidste kolonne er p-værdien angivet.3) Den simple lineære model er signifikant.2 Signifikans for den lineære model (Dette hænger meget nøje sammen med testen i 5. dvs.266581 2.19901 1. Teststørelsen er t-fordelt med n − 2 frihedsgrader.997366 R Square 0. Denne størrelse er beregnet for én i regresionen under t-stat. Dette kan undersøges ved følgende test: H 0 : β1 = 0 og H A : β1 ≠ 0 b1 .40909 0.994082 Standard Error 0.966939 Upper 95% 0.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.342547 -1.1E-10 Lower 95% -1. hvor n er antallet af datasæt i regressionen.5.9636 403.214879 40 .05376 38.9636 1512. Denne p-værdi er også at finde øverst i regressionen under ANOVA.1E-10 Intercept x Standard Coefficients Error t Stat P-value -0. hvor b er den faktiske hældning.2.19426 0. hvis der er en reel sammenhæng mellem de to variable.2. hvis hældningen β1 ≠ 0 .1 Significance F 2.380823 2.136364 0.715 8 2.89364 2. Significance F.994739 Adjusted R Square 0. som man beregner i regressionen. Teststørrelsen er t = SUMMARY OUTPUT Regression Statistics Multiple R 0.267045 9 406.

om den forklarende variabel er signifikant. Denne p-værdi er også at finde øverst i regressionen under ANOVA.9636 403. s1 og s1 er standardfejlen for denne koefficient.266581 2.9636 1512. men det er mere usædvanligt).380823 2.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .214879 41 .966939 Upper 95% 0. hvor b1 er den faktiske hældning. dvs.19901 1.090909 0.1E-10 Lower 95% -1.136364 0. SUMMARY OUTPUT Regression Statistics Multiple R 0. så kan nedenstående test anvendes: H 0 : β1 = c og H A : β1 ≠ c (man kan også teste ensidigt.342547 -1.997366 R Square 0. at alternativhypotesen skal understøtte de observerede data! Som regel er man intersseret i at vide. b −c Teststørrelsen er t = 1 . teste. om β1 ≠ 0 .994739 Adjusted R Square 0.715 8 2.3 Test for hældningen Vil man undersøge størrelsen på hældningen.n − 2 (t ) z > − zα / 2 1 − FT .05376 38. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat. Teststørelsen er t-fordelt med n − 2 frihedsgrader.267045 9 406.19426 0.5.89364 2.516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.40909 0. hvor n er antallet af datasæt i regressionen. Significance F. H0 HA Teststørrelse β1 = c β1 ≠ c β1 ≥ c β1 < c β1 ≤ c β1 > c t= b1 − c sb p-værdi 2 FT .1E-10 Intercept x Standard Coefficients Error t Stat P-value -0.994082 Standard Error 0.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.2. som man beregner i regressionen. og i sidste kolonne er p-værdien angivet.1 Significance F 2.

19901 1.9636 403.994739 Adjusted R Square 0. hvor n er antallet af datasæt i regressionen. b −c Teststørrelsen er t = 0 . hvor b0 er den faktiske skæring.136364 0.19426 0.090909 0.342547 -1.1 Significance F 2.966939 Upper 95% 0.05376 38. og i sidste kolonne er p-værdien angivet.266581 2. I dette specielle tilfælde er teststørrelsen er beregnet for én i regresionen under t-stat.1E-10 Intercept x Standard Coefficients t Stat P-value Error -0.994082 Standard Error 0.1E-10 Lower 95% -1. Teststørelsen er t-fordelt med n − 2 frihedsgrader. SUMMARY OUTPUT Regression Statistics Multiple R 0. H0 HA β0 = c β0 ≠ c β0 ≥ c β0 < c t= b0 − c s0 β0 ≤ c β >c Teststørrelse p-værdi 2 FT .715 8 2.9636 1512. men det er mere usædvanligt).5. som man beregner i regressionen.n − 2 (t ) z < zα / 2 Accept Forkast z < − zα / 2 eller z < − zα / 2 z > zα / 2 z > zα / 2 Husk.n − 2 (t ) z > − zα / 2 1 − FT .516764 Observations 10 ANOVA df Regression Residual Total SS MS F 1 403.214879 42 .997366 R Square 0.4 Test for skæringen Vil man undersøge størrelsen på særingen β0 (eller konstantleddet). at alternativhypotesen skal understøtte de observerede data! For specialtilfældet.2.380823 2. har Excel beregnes teststørrelsen og den tilsvarende p-værdi for os. om β0 = 0 eller ej. s0 og s0 er standardfejlen for denne koefficient. hvor vi undersøger. så kan nedenstående test anvendes: H 0 : β0 = c og H A : β0 ≠ c (man kan også teste ensidigt.89364 2.267045 9 406.n −2 (− | t |) − zα / 2 < z < zα / 2 FT .40909 0.

5. ud fra en given x-værdi.1): ˆ yny = b0 + b1 xny Vi kan endvidere beregne forudsigelsesintervaller og konfidensintervaller for denne størrelse: x og SAK x er hjælpestørrelser. xny . Punktestimatet for denne nye værdi finds ved at indsætte i den lineære sammenhlbg fra (5. som defineres som følger: x= 1 n ∑ xi n i =1 n n (gennemsnittet af x'erne i regresionen) 2 SAK x = ∑ ( xi − x ) 2 = ∑ xi − nx 2 i =1 i =1 se er standardfejlen.α / 2 ⋅ se ⋅ 1 + 2 1 ( xny − x ) + n SAK x Konfidensintervallet: (for middelværdien af den forventede værdi E (Y | X = X ny ) ) ˆ yny + t n − 2. som kan aflæses i regressionen øverst som Standard Error.α / 2 ⋅ se ⋅ 2 1 ( xny − x ) + n SAK x I Excel beregnes x som = AVERAGE( x-værdierne) og SAK x som = SUMPRODUCT( x-værdierne. for hvilken vi ikke har data i observationssættet. Formlerne er Forudsigelsesintervallet: (for den aktuelle værdi yny ) ˆ yny + t n − 2.2. x-værdierne) – x ^2 43 .5 Forudsigelsesintervaller og konfidensintervaller Ofte er man interesseret i at anvende den lineære model til at forudside en ny y-værdi.2. yny .

0259 0..2607 0. sammen med den tilsvarende p-værdi.0143 P-værdi Nedre 95% Øvre 95% 0. at modellen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0. + E 5. og modellen er derfor Y = β0 + β1 X 1 + β 2 X 2 + . at en lav p-værdi (som nedenunder.3.en kan findes i Excels beregninger.0020 0.3 Multipel lineære regression 5.7054 0. Teststørrelsen for denne test er svær at beregne manuelt.9400 R-kvadreret 0.. = 0 og H A : mindst én af βi 'erne er ikke 0. βi er de enkelte variables koefficienter og E er residualet. I praksis vil vi erstatte βi 'erne med deres estimerede størrelser.1315 0. hvor den er 7. hvis mindst én af koefficienterne βi ikke er 0.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126. Bemærk. + E hvor β0 er konstantleddet (skæringen med y-aksen) ..5043 4.4970 13 33799.8837 Justeret Rkvadreret 0.9130 0.272 ⋅10 −6 ) indikerer.4424 0.7724 Signifikans F 7.6240 -0.9278 0.0038 0.0889 44 .9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867.1 Opstilling af den lineære model I den multiple lineære regression er der kun flere forklarende variable.1850 0.0514 -254.. dvs.4672 357.3. hvis der er en reel sammenhæng mellem den afhængige og de forklarende variable. Dette kan undersøges ved følgende test: H 0 : β1 = β 2 = β3 = .5164 11 3932..5380 57. som vi beregner i regressionen: Y = b0 + b1 X 1 + β 2 X 2 + .0328 14933..0141 F 41.0574 0.5000 t-stat -2.5.8625 Standardfejl 18.2 Signifikans af den lineære model Den lineære model er signifikant.

0574 0. Denne størrelse er beregnet for én i regresionen under t-stat.8837 Justeret Rkvadreret 0. dvs.1315 0.5164 11 3932.5.3. hvor bi er den faktiske koefficient.4424 0. og i sidste kolonne er p-værdien angivet.1850 0. hvis den har en reel indflydelse på Y.8625 Standardfejl 18. Bemærk.0328 14933.9130 0.4970 13 33799.2607 0.0141 F 41.0020 45 . hvis koefficienten βi ≠ 0 .5380 57. og si si er standardfejlen for denne koefficient.5000 t-stat -2.5043 4. Teststørelsen er t-fordelt med n − 2 frihedsgrader.7724 Signifikans F 7.3 Signifikans af de enkelte forklarende variable Den enkelte forklarende variabel X i er signifikant.0038 0.6240 0. som man beregner i regressionen.0514 -254.9076 Observationer 14 ANAVA fg Regression Residual I alt SK MK 2 29867. at variablen er signifikant! RESUMEOUTPUT Regressionsstatistik Multipel R 0. Dette kan undersøges ved følgende test: H 0 : βi = 0 og H A : βi ≠ 0 b Teststørrelsen er t = i . at en lav p-værdi indikerer.7054 0.9400 R-kvadreret 0. hvor n er antallet af datasæt i regressionen.4672 357.272E-06 Skæring Reklameindex Salg af cykler Koefficienter Standardfejl -126.0889 0.0259 0.9278 -0.0143 P-værdi Nedre 95% Øvre 95% 0.

så er den værdiløs. så fjerner man ofte med mest insignifikante (den med den højeste p-værdi i testen i (5. Krav 1 er et kvalitetsmål. Som regel kan der ske. så vil de begge i modellen vise sig ved at den ene er insignifikant. Hvis der er flere insignifikante variable. som bedst anvendes til at vælge mellem modeller.3)). at hvis to forklarende variable er korrelerede. 46 .4 Valg af den bedste lineære model Ofte stilles man overfor at skulle finde den bedste lineære moel blandt en række.3. jo bedre (R-squared) Modellen skal være signifikant De enkelte variable skal være signifikante. Forklaringsgraden kan ikke alene anvendes til at vælge mellem modeller.3. som opfylder krav 2 og 3. Krav 2 er absolut – hvis modellen ikke er signifikant.5. Krav 3 skal helst være opfyldt. og modellerer videre. Valgkriterierne er her om følger: 1) 2) 3) Jo højere forklaringsgrad.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->