Regresinė analizė: samprata ir turinys


Regresijos lygties statistinio reikšmingumo įvertinimas



Yüklə 0,54 Mb.
səhifə5/9
tarix14.09.2018
ölçüsü0,54 Mb.
1   2   3   4   5   6   7   8   9

Regresijos lygties statistinio reikšmingumo įvertinimas


Taikant regresinę analizę neužtenka įvertinti, kiek priklausomojo kintamojo kitimo paaiškina nepriklausomų kintamųjų veikimas. Logiška, kad atlikus mažai stebėjimų daryti išvadas apie daugelio veiksnių įtaką, net ir turint aukštą determinacijos koeficientą nėra patikima. Pvz., turint tik pusmečio, t.y., 6 stebėjimų duonos kainos priklausomybę nuo išteklių kainų regresijos vertinimai nėra patikimi. Norint žinoti, ar galima pasikliauti apskaičiuota regresiniu modeliu, yra atliekama regresijos statistinio reikšmingumo tikrinimo procedūra, naudojant Fišerio testą. Tuo tikslu skaičiuojama F statistika,

kur α- pasirinktas reikšmingumo lygmuo, k ir n-k-1 yra atitinkami laisvės laipsnių skaičiai F-statistikos skaitiklyje ir vardiklyje.

Jei pagal regresiją apskaičiuota F statistika yra didesnė už pasirinkto reikšmingumo

lygmens teorinę Fk, ,n-k-1 skirstinio reikšmę, tai apskaičiuota regresija yra statistiškai reikšminga.

Hipotezės tikrinimo procedūr tradiciškai susideda iš keturių žingsnių:

1. žingsnis. Iškeliam hipotezes:

H0: 1 =2 =… =k = 0, (visi parametrai prie nepriklausomų kintamųjų yra lygūs 0 t.y., regresija yra nereikšminga, nes nė vienas veiksnys neįtakoja priklausomojo kintamojo)

HA: bent vienas iš parametrų j nėra lygus 0 (regresija statistiškai reikšminga, nes yra bent vienas veiksnys, kuris įtakoja priklausomą kintamąjį)

2 žingsnis Apskaičiuojama pagal formulę F statistikos reikšmė ir laisvės laipsnių skaičius k, ir n-k-1.

3 žingsnis Apskaičiuotą faktinę F reikšmę lyginame su pasirinkto reikšmingumo, pvz., 5 proc. (=0,05), teorine Fk,n-k-1 reikšme iš F-skirstinio lentelių (žr. priedus 8)

4 žingsnis Išvada. Jeigu Fapskaičiuota > Fk,n-k-1 , tuomet su 95% pasikliovimo lygmeniu atmetame nulinę hipotezę, jog regresija yra statistiškai nereikšminga ir priimame alternatyvią, kad bent vienas nepriklausomas kintamasis įtakoją nagrinėjamą kintamąjį. Jeigu yra priešingai ,t.y., Fapskaičiuota < Fk,n-k-1 , tuomet negalime atmesti H0 hipotezės, kad kintamųjų priklausomybė yra statistiškai nereikšminga.

Visa reikiamus regresijos statistinio reikšmingumo tikrinimui reikalingus rodiklius galima matyti Excel –Regression skai

iavimų išklotinės (priedai 4,5) antroje lentelėje ANOVA


ANOVA
















 

Df-laisvės laipsniai

SS-kvadratinių nuokrypių sumos

MS (Stulpelis SS/df-laisvės laipsnių)

F – apskaičiuota

Reikšmingumo lygmuo F

Regression (E)

3

2,409

0,803

225,772

0,000

Residual ( R)

32

0,114

0,004







Total (T)

35

2,523

 

 

 

Determinacijos koeficientas yra apskaičiuojamas iš SS stulpelio duomenų

R2=ESS/TSS2,409/2,523=0,955, o FapskaičiuotaEMS/RMS=0.804/0.004225.772
Regresijos statistinio reikšmingumo hipotezei patikrinti atliekami tokie žigsniai:

1. žingsnis. Tikriname hipotezę, ar regresinis ryšys yra statistiškai reikšmingas:

H0: visi parametrai j =0, prie kintamųjų (mūsų pavyzdyje turime 3 nepriklausomus kintamuosius xrugių kaina, xdyzelino kaina ir xdarbo užm ) yra statisiškai nereikšmingi

HA: bent vienas iš parametrų j, nėra lygus 0 (regresija statistiškai reikšminga)

2 žingsnis Apskaičiuojame pagal formulę statistikos Fapskaičiuota reikšmę, ir laisvės laipsnius :k=3 ir n-k-1=36-3-1=32 laisvės laipsniai:


3 žingsnis Fapskaičiuota reikšmę lyginame su 5 proc. (=0,05) reikmingumo teorine

F3,32 =2,92 reikšme iš F-skirstinio lentelių (žr. priedus8). Matome, kad

Fapskaičiuota =225,772> F3,32= 2,92

4 žingsnis Išvada. Su 95% pasikliovimo lygmeniu atmetame nulinę hipotezę ir priimame alternatyvią hipotezę, kad bent vienas veiksnys reikšmingai įtakoja duonos kainą, t.y., modelis yra statistiškai reikšmingas

Septintas žingsnis: Veiksnių statistinio reikšmingumo analizė

Šeštame žingsnyje suskaičiuoti regresinio modelio koeficientai vadinami taškiniais parametrų įverčiais. Jeigu apskaičiuoti įverčiai yra patikimi ir tenkina regresijos klasikines prielaidas, t.y., jie turi būtinas įverčių savybes –yra tiesiniai, nepaslinkti, suderinti ir efektyvūs. Modelio sudarytojas prieš taikydamas šiuos koeficientus verslo situacijos analizei BŪTINAI turi įsitikinti įverčių patikimumu, nes Excel skaičiuoklė visuomet pateiks įverčių skaitines reikšmes. Įverčių patikimumo tikrinimas apima tokias procedūras:1) įverčių statistinio reikšmingumo patikrinimas, apskaičiuojant koeficientų paklaidas, sudarant pasikliautinus intervalus ir patikrinant veiksnių statistinio reikšmingumo hipotezes. 2) Patikrinti veiksnių koreliuotumo galimybę, t.y., (penktoji klasikinė regresijos prielaida).


kur i – stebėjimo numeris, yi - faktinė i-ojo stebėjimo priklausomojo kintamojo reikšmė, - teorinė t.y. apskaičiuota pagal regresijos lygtį, i- ojo stebėjimo priklausomojo kintamojo reikšmė, xI i-oji nepriklausomojo kintamojo reikšmė, x –nepriklausomojo kintamojo vidurkis.

k yra nepriklausomų kintamųjų ir atitinkamai vertinamų koeficientų prie jų skaičius. Porinės regresijos atveju jis yra lygus – 1. Jeigu regresijoje yra laisvasis narys, tuomet bendras vertinamų koeficientų skaičius yra vienu didesnis negu nepriklausomų kintamųjų skaičius, t.y., porinės regresijos atveju yra apskaičiuojami du modelio koeficientai, o dauginės regresijos atveju k+1



1.

Taigi parametro βj intervalinis įvertis užrašomas taip:

βj [bj  tn-k-1,/2 SEbj]., arba P[bi - tn-k-1,/2 SEbi ≤ βj ≤ bi + tn-k-1,/2 SEbi] =1-α.,

kur apatinis βj įverčio rėžis yra lygus: bj - tn-k-1,/2 SEbj., o viršutinis bI rėžis: bi + tn-k-1,/2 SEbi.,

SEI - standartinė i- įverčio paklaida, apskaičiuota pagal viršuje patektas formules

tn-k-1,/2 - teorinė Student’o skirstinio statistika su n-k-1 laisvės laipsnių skaičiumi ir  reikšmingumo lygmeniu, Regresinėje analizėje laisvės laipsniai – tai stebėjimų skaičiaus ir įtrauktų į modelį koeficientų skaičiaus skirtumas. Pavyzdžiui, turime 100 stebėjimų ir vertiname 10 parametrų, tai turėsime 90 laisvų stebėjimų, Patogumo dėlei vertinamų parametrų skaičių galime sutapatinti su į regresiją įtrauktų nepriklausomų kintamųjų (įtakojančių veiksnių skaičiumi). Tik svarbu atkreipti dėmesį,ar regresinė lygtis turi laisvąjį narį, nes tokiu atvejų k padidėja vienu vienetu, žyminčiu laisvąjį narį. Kuo didesnis laisvės laipsnių skaičius, tuo tikslesnis gaunamas įvertis.

Skaitinė tn-k,/2 reikšmė randama iš Studento statistinių skirstinių lentelių. (žr. priedą 7). Reikšmingumo lygmenį  pasirenka tyrinėtojas. Dažniausiai sutinkamas = 0,05, kuris reiškia, kad išvados yra daromos su 5 proc. tikimybe suklysti arba, 1-0,05=0,95, t.y 95 proc. pasikliovimo lygmeniu. n yra stebėjimų, skaičius, k+1 – vertinamų parametrų skaičius,

Atlikus visus skaičiavimus gaunamas intervalas į kurį su tikimybe 1-  patenka tikroji parametro reikšmė. Kuo šis intervalas yra siauresnis, tuo tikslesnis yra parametro įvertis.

Iš intervalinio iverčio formulės matyti, kad įverčiai bus tuo tikslesni, kuo mažesnės bus įverčių paklaidos ir didesnis laisvės laipsnių skaičius. Taigi norint gauti tikslesnius įverčius, reikia siekti dviejų dalykų: pirma, kad į analizę įtrauktų stebėjimų skaičius n būtų kiek galima didesnis, ir, antra, kad įtakojančių veiksnių (nepriklausomų kintamųjų) reikšmės būtų kuo įvairesnės.

Excel skaičiuoklės išklotinėje (žr. priedus 2) yra pateikiamos įverčių standartinių paklaidų bei intervalinių įverčių apatinio ir viršutinio rėžių reikšmės .



TS –tiesinio modelio įverčių skaičiavimo rezultatai (Excel išklotinė)

 

Koeficientai

Standartinė paklaida

t Stat

P-reišmė

Apatinis rėžis 95%

Viršutinis rėžis 95%

Laisvasis narys

0,418

0,802

0,521

0,606

-1,222

2,059

Dyzelino kaina, Lt/ltr

0,065

0,092

0,702

0,488

-0,123

0,252

Rugiai, Lt/t

0,001

0,000

6,265

0,000

0,0006

0,0012

Elektros kaina, ct/kWh

0,005

0,008

0,630

0,533

-0,011

0,021

Vid. Darbo Užmokestis, Lt/mėn.

0,001

0,000

3,546

0,001

0,001

0,002

Cukraus kaina, Lt/kg

0,231

0,065

3,543

0,001

0,097

0,364

PVM pakeitimas

0,011

0,032

0,359

0,722

-0,053

0,076

Pateiktoje lentelėje yra apskaičiuotos koeficientų reikšmės, pateiktos stulpelyje Koeficientai, jų standartinės paklaidos ir pasikliautini intervalai. Pastarieji parodo, kad 95 proc. tikimybę galima teigti, kad tikroji pz. laisvojo nario β0 parametro reikšmė yra intervale [-1,222; 2,059], o parametro prie rugių kainos , kurio įvertis brugių kaina= 0,001 pasikliautinas intervalas yra gerokai siauresnis [0,0006;0,0012]. Kuo mažesnė standartinė paklaida to paties koeficiento, tuo bus tikslesni įverčiai ir siauresni pasikliautini intervalai.

Šioje dalyje prasminga turėti griežtesnį kriterijų, kurio pagalba galima būtų tiksliau atsakyti į klausimą, kokią įtaką daro konkretus veiksnys duonos kainai. Tokiu kriterijumi gali būti

hipotezių tikrinimo procedūra.



Hipotezės samprata

Hipotezė yra iš anksto griežtai suformuluotas ir tam tikra analize tikrinamas teiginys. Regresinėje analizėje taikant statistinių išvadų metodą hipotezė gali būti statistiškai atmetama arba neatmetama tačiau ji niekada nėra įrodoma.

Regresinėje analizėje hipotezių tikrinimo procedūroje būtini keturi elementai:

Nulinė hipotezė Ho

Alternatyvi hipotezė Ha,

Testo statistika,

Hipotezės paneigimo taisyklė.



Nulinė hipotezė (H0) – tai teiginys arba prielaida, kuri statistiškai patvirtinama arba ne, remiantis nagrinėjamais stebėjimais.

Alternatyvi hipotezė (HA) - tai teiginys arba prielaida, kuris yra teisingas, kai nulinė hipotezė statistiškai atmetama.

Jei patvirtinama nulinė hipotezė, tai alternatyvi hipotezė atmetama. Jei nepatvirtinama nulinė hipotezė, tai priimama alternatyvi. Taigi statistinę hipotezę sudaro dviejų alternatyvų visuma Statistiškai patvirtinti hipotezę reiškia, jog nagrinėjami duomenys teiginį patvirtins su didesne tikimybe negu pasirinktas patikimumo lygmuo.

Pateiktoje apačioje lentelėje pateiktos dažniausiai tikrinamos hipotezės apie regresinės lygties

yi = 0+1x1i+...+kxki+I parametrus.



Pagrindinės regresinėje analizėje tikrinamos hipotezės

Tikrinamas teiginys

Nulinė (H0) ir alternatyvi (HA) hipotezė

Pastabos

Regresijos lygties laisvasis narys nereikšmingas (lygus nuliui)

H0: 0=0

HA: 00






Nepriklausomas kintamasis neturi įtakos priklausomam kintamajam

H0: i=0, i=1,..k

HA: i0, i=1...k






Nepriklausomojo kintamojo parametras yra lygus tam tikrai reikšmei

H0: i=c,

HA: ic, c – tikrinama parametro reikšmė



Galima pastebėti, jog ankstesnės hipotezė H0:i=0, yra atskiras hipotezės H0: i=c atvejis, kai c=0.

Įvertinta regresija yra statistiškai nereikšminga

H0: i=0,  i, i=1..k

HA: i0,  i, i=1..k




Tai jungtinė hipotezė, jog visi parametrai kartu paėmus nėra reikšmingi.

Vienpusė ir dvipusė hipotezė

Hipotezės gali būti vienpusės arba dvipusės. Dvipusės hipotezės atveju alternatyvi hipotezė formuluojama su nelygybės ženklu, pvz.:

a) Kintamųjų poveikio statistinio reikšmingumo tikrinimas (pvz. rugių kaina nedaro įtakos duonos kainai): H0: i = 0; Ha: i ≠ 0

Vienpusės hipotezės atveju tikrinamo parametro reikšmės gali būti tik didesnės arba tik mažesnės už hipoteze tikrinamą dydį. Parametro konkretaus ženklo tikrinimas yra tokios hipotezės pavyzdys

Dydis t yra pasiskirstęs pagal Stjudento t-skirstinį su /2 reikšmingumo lygmeniu ir n-k-1 laisvės laipsniais. t.y t~ t/2(n-k-1)



3 žingsnis Apskaičiuota t statistikos reikšmė lyginama su teorine t-skirstino t/2(n-k-1) reikšme.

4 žingsnis. Daromos išvados Jei apskaičiuotos |t| reikšmės modulis yra didesnis už teorinę t-skirstinio reikšmę, tuomet nulinė hipotezė atmetama ir priimama alternatyvi hipotezė. Su 1- tikimybe (pvz., = 0,05, t.y., 95 proc. tikimybe) galime tvirtinti, kad j-ojo veiksnio poveikis yra statistiškai reikšmingas. Priešingu atveju, kai t apskaičiuotos reikšmės modulis yra mažesnis už teorinę reikšmę t/2(n-k-1), negalime atmesti nulinės hipotezės, o tai reiškia, kad negalime tvirtinti, kad j veiksnio poveikis yra statistiškai reikšmingas.

Hipotezės paprastai tikrinamos, taikant 90% 95% ar 99% pasikliovimo lygmenį (1-), kas yra tas pats, kaip reikšmingumo lygmuo : 0,1%; 0,05%; 0,001%. Reikšmingumo lygmuo  rodo toleruojamą hipotezių tikrinimo klaidos tikimybę atmesti nulinę hipotezę, kai ji yra teisinga. Pvz. kai tikrinama hipotezė H0 βelekt. kaina=0 (elektros kainos pokyčiai nedaro statistiškai reikšmingo poveikio duonos kainai) su reikšmingumo lygmeniu = 0,05, tai rodo kad tyrėjas 95% tikimybe teisingai atmeta H0 hipotezę, kad „elektros kainos poveikis yra statistiškai nereikšmingas“,. ir toleruoja 5% tikimybę klaidingai atmesti hipotezę nors tai netiesa.

Lygiavertę išvadą apie tikrinamą hipotezę galima gauti lyginant apskaičiuotąją t reikšmę atitinkantį faktinį reikšmingumo lygmenį p su analitiko pasirinktuoju  - reikšmingumo lygmeniu. Jei apskaičiuotas reikšmingumo lygmuo  yra mažesnis nei tyrėjo pasirinktas, tai nulinė hipotezė atmetama, jei didesnis –nulinės hipotezės atmesti negalima.

Veiksnių reikšmingumo tikrinimo pavyzdys

Kiekvienos regresinės analizės metu būtina patikrinti parametrų įverčių reikšmingumą. Pavyzdyje apie rugių kainos priklausomybę patikrinsime, kurių veiksnių kainų pokyčiai daro poveikį duonos kainą, o kurie neturi reikšmingos įtakos. Taigi, tikrinsime modelio koeficientų statistinio reikšmingumo hipotezę.



1. žingsnis. Tikrinama parametrų lygybės nuliui hipotezė

H0: j=0, (parametras prie nepriklausomojo kintamojo xj yra lygus 0, t.y., konkretaus veiksnio kainos pokyčiai nedaro statistiškai reikšmingo poveikio duonos kainai)

HA: j0. (parametras prie nepriklausomojo kintamojo x nelygus 0 t.y., xj nėra lygus 0, t.y., konkretaus veiksnio kainos pokyčiai daro statistiškai reikšmingą poveikį duonos kainai
2 žingsnis Apskaičiuojama t-stjudento testo statistikos visiens koeficientams.: tb0 apskaičiuotair t.t. Šios statistikos yra pateiktos Excel išklotinėe pateiktoje lentelėje viršuje ir priede 2 lentelės stulpelyje t-stat.

3 žingsnis Visų koeficientų tapskaičiuota - reikšmė lyginama su t/2,n-k-1 teorine reikšme. Iš t pasiskirstymo lentelių (žr. priedas 7 ) randame t0.05/2;29 = 2,045 (laisvės laipsnių skaičius: n-k-1=36 -6-1=29), ir /2=0,05/2=0.025 Palyginę apskaičiuotą t reikšmę su teorine t0.025,29, matome, kad tapskaičiuota =0,521 yra mažesnė už t0.025,29 =2,045, o kintamojo rugių kaina

tapskaičiuota =6,265> t0.025,29=2,045

4 žingsnis Išvada. Su 95% tikimybe atmetama nulinė hipotezė H0: j=0 trims kintamiesiems: rugių kainai, darbo užmokesčiui ir cukraus kainai ir priimama alternatyvi hipotezė HA: 10, kuri reiškia, kad šių veiksnių kainų pokyčiai statistiškai reikšmingai veikia duonos kainą.

Kitų gi kintamųjų: dyzelino, elektros kainų kitimas ir PVM mokesčio tarifo pakeitimo koeficientams atmesti H0 j=0 hipotezės, kad jų poveikis yra statistiškai nereikšmingas, negalime, nes tapskaičiuotos statistikos modulis yra mažesnis už t0.05/2;29 = 2,045.

Analogiškai tikriname ir laisvojo nario statistinį reikšmingumą, kurio t_statistika yra mažesnė už t0.05/2;29 = 2,045. Vadinasi ir laisvasis narys nėra statistiškai reikšmingas.
Kai yra daroma išvada, kad priklausomas kintamasis arba laisvasis narys yra statistikai nereikšmingas, tuomet iš naujo reikia skaičiuoti regresijos lygtį be to nepriklausomo kintamojo arba laisvojo nario. Įsidėmėtina, jog išmetus iš regresijos lygties nereikšmingą veiksnį, likusių nepriklausomų kintamųjų parametrų įverčiai ir standartinės paklaidos keičiasi, todėl turi būti iš naujo įvertinti parametrai ir patikrintas jų reikšmingumas.
Atlikus statistinio veiksnių reikšmingumo testus ir suradus, kad modelyje yra nereikšmingų kintamųjų, reikia išsiaiškinti nereikšmingumo priežastis ir koreguoti modelį. Kintamieji gali būti statistiškai nereikšmingi dėl šių priežasčių:


  1. Veiksniai iš tiesų nedaro įtakos nagrinėjamas reiškiniui. Jeigu tai yra tiesa, tuomet ši statistinė išvada yra dėsninga, kuri suteikia mums svarbios informacijos, kad parinktas veiksnys reikšmingos įtakos nagrinėjamam reiškiniui neturi.

  2. Tyrimui surinkta per mažai duomenų ir dėl laisvės laipsnių trūkumo, gaunamos didelės įverčių paklaidos. Šiuo atveju reikėtų papildyti duomenų eilutes naujais stebėjimais. Vertėtų prisiminti ekonometrijoje taikomą „Nykščio taisyklę“ kuri sako, kad, norint išvengti kintamųjų nereikšmingumo dėl per mažo laisvės laipsnių skaičiaus, į modelį įtrauktų stebėjimų skaičius bent 6 kartus turi būti didesnis už nepriklausomų kintamųjų skaičių.

  3. Tam tikri veiksniai netenkina interkoreliacijos klasikinės prielaidos, todėl gavome modelį su nereikšmingais kintamaisiais. Kaip patikrinti šią prielaidą, bus paaiškinta žemiau.

  4. Neteisingai parinkta modelio matematinė forma. Šiuo atveju galima pabandyti kintamąjį įtraukti į modelį kita forma, pvz. logaritmine arba kvadratine.

Suskaičiavus regresinį modelį ir pastebėjus, kad yra statistiškai nereikšmingų veiksnių, vertėtų patikrinti penktąją klasikinę regresijos prielaidą, apie nepriklausomų kintamųjų multikolinearumą.

Septintame žingsnyje patikrinę veiksnių statistinio reikšmingumo hipotezes radome, duonos kainai statistiškai reikšmingą įtaką daro rugių kaina, darbo užmokestis ir cukraus kaina, o dyzelino, elektros kainų kitimas, PVM mokesčio tarifo pakeitimas ir laisvasis narys yra statistikškai nereikšmingi veiksniai. Gavus tokius rezultatus verta patikrinti ar veiksnių nereikšmingumas nėra atsiradęs dėl multikolinearumo. Šiuo tikslu suskaičiuojame porinių koreliacijų matricą Excel skaičiuoklės pagalba

Apačioje pateikiama porinių koreliacijų koeficientų lentelė




Koreliacijos matricos apskaičiavimui reikia atverti Data Analysis langą, kuriame matysite duomenų analizės priemonių sąrašą. Pasirinkite Correlation ir paspauskite mygtuką OK, Ekrane pasirodys lentelė Correlation, kurioje langeliuose: Input Y range reikia pažymėti atitinkamų duomenų pirmojo ir paskutinio stebėjimų langelių koordinates arba, atsistojus įrašo langelyje, su pele apibrėžti Y ir X kintamųjų duomenų lentelę. Pažymint duomenų lentelę, galima įtraukti ir kintamųjų pavadinimų langelius. Tuomet reikėtų varnelę uždėti langelyje ties Labels_in_first_row'>Labels in first row
, Grouped by srityje reikia pažymėti Columns. Srityje Output reikia nurodyti vietą, kurioje bus patalpinti skaičiavimo rezultatai. Patogiausia -talpinti tos pačios bylos naujame puslapyje New Worksheet Ply ir nurodyti pavadinimą, pvz Koreliacija

Pagrindinėje lentelės įstrižainėje matome koreliacijos koeficientus lygius vienetui, t.y., visišką duomenų sutapimą, ir tai yra dėsninga, nes tai ryšis tarp to paties kintamojo duomenų. Paryškintame lentelės stulpelyje yra pateikiami porinės koreliacijos koeficientai tarp Y ir visų X, t.y., duonos kainos ir įtrauktų X veiksnių. DU koeficientai šiame stulpelyje yra artimi 1 ir rodo stiprų sąryšį tarp duonos kainos ir dyzelino bei rugių kainos, kiti šio stulpelio rodo vidutinį ryšio stiprumą. Pirmame stulpelyje esantys koeficientai nesukelia multikolinearumo problemos. Blogai yra tuomet, kai likusioje, be pažymėto stulpelio, matricos dalyje yra didesnių negu |0,8| koreliacijos koeficientų reikšmių. Tokios koeficientų reikšmės yra tarp dviejų porų kintamųjų: dyzelino bei rugių kainų susikirtime(0,89) ir cukraus bei dizelino (0,87) Taigi dyzelino, rugių ir cukraus kainos turi labai panašias kitimo tendencijas, todėl skaičiuojant koeficientus MKM metodu jų reikšmės gali būti paslinktos t.y., nutolusios nuo tikrųjų parametro reikšmių. Rugių ir dizelino kainų pokyčiai yra svarbūs tyrime todėl abu kintamuosius tikslinga išsaugoti modelyje. Problemą išspręsime pakeisdami dyzelino duomenis į dirbtinį kintamąjį, kuris įgauna tik tris reikšmes 3,5; 4,0; 4,5 Lt/ltr. t.y., dizelino kainoms iki 3,5 Lt, suteikiama reikšmė 3,5 Lt.; kainoms, didesnėms už 3,5 bet mažesnėms už 4,0 Lt priskiriama 4,0 Lt. reikšmė, o kainoms didesnėms už 4 Lt. bet mažesnėms už 4,5 Lt priskiriama kaina 4,5 Lt. Padarius tokį pakeitimą, koreliaciją tarp dyzelino ir rugių kainų sumažėjo iki 0,72. Todėl tolesniuose skaičiavimuose dyzelino kaina bus įtraukta dirbtiniu pavidalu. Tačiau toks dyzelino kainos pakeitimas neišsprendė interkoreliacijos problemos tarp cukraus ir dyzelino kainų. Kadangi cukraus duonos sudėtyje yra labai mažai, o transportavimo kaštai gana žymus, tai atsiradusią stiprią koreliaciją tarp šių veiksnių galima eliminuoti, atsisakant vieno iš veiksnių. Šiuo atveju –cukraus kainos. Todėl tolesnėje tyrimo eigoje cukraus kintamojo į modelį nebeįtrauksime. Atlikus šiuos pakeitimus galima teigti, kad sudarytas modelis tenkina penktąją klasikinę regresinio modelio prielaidą apie multikolinearumo nebuvimą.



Statišktiškai nereikšmingų veiksnių atsisakymas

Išsprendus multikolinearumo problemą, suskaičiuojame naują regresijos lygtį su pakeistais dyzelino duomenimis ir be kintamojo cukraus kaina. Žemiau pateikiama naujos regresijos duomenų lentelė



 

Koefiientai

Standarinės paklaidos

t Stat

P-reikšmė

Viršutinis 95%

Apatinisr 95%

Intercept

0,483

0,896

0,539

0,594

-1,346

2,312

Rugiai, Lt/t

0,001

0,000

8,120

0,000

0,001

0,001

Vid. Darbo Užmokestis, Lt/mėn.

0,001

0,000

3,055

0,005

0,000

0,002

PVM pakeitimas

0,005

0,035

0,142

0,888

-0,066

0,076

Elektros kaina, ct/kWh

0,003

0,007

0,527

0,602

-0,010

0,017

Dyzelino kainos dirbt dydis

0,269

0,044

6,118

0,000

0,179

0,358

Pakeistame modelyje vis dar lieka du statistiškai nereikšmingi veiksniai: PVM tarifo pakeitimas ir elektros kaina tstat=0,527 bei laisvasis narys b0. tstat=0,539 Labai realu, kad pirmieji du kintamieji labai silpnai veika 1 kg. duonos kainą. Todėl tikėtina, kad šis statistinis nereikšminumas atspindi faktą, kad nei PVM pakeitimas nei elektros kainų didėjimas duonos kainai reikšmingos įtakos neturėjo. Įprasta, kad regresiniame modelyje neturėtų būti statistiškai nereikšmingų veiksnių, todėl xelektros tarif ir DPVM kintamuosius reikėtų pašalinti iš modelio. Kai yra daroma išvada, kad priklausomas kintamasis arba laisvasis narys yra statistikai nereikšmingi, tuomet iš naujo reikia skaičiuoti regresijos lygtį be nereikšmingo nepriklausomo kintamojo arba laisvojo nario. Įsidėmėtina, jog išmetus iš regresijos lygties nereikšmingą veiksnį, likusių nepriklausomų kintamųjų parametrų įverčiai ir standartinės paklaidos keičiasi, todėl turi būti iš naujo įvertinti parametrai ir patikrintas jų reikšmingumas.

Paprastai nereikšmingi kintamieji yra šalinami po vieną, pradedant nuo to veiksnio, kurio tapskaičiuot statistika moduliu yra mažiausia. Mūsų pavyzdyje fiktyvaus kintamojo PVM mokesčio pakeitimų statistika yra mažiausia. Todėl apskaičiuojame dar vieną modelį be kintamojo xPVM Atlikti skaičiavimai parodė, kad išmetus veiksnį xPVM ir perskaičiavus regresiją, elektros kainos reikšmingumas nepasikeitė ir naujame modelyje, todėl atsisakome ir kintamojo elektros kainos ir liekame prie modelio su trimis kintamaisiais: rugių kaina, dyzelino kaina ir darbo užmokesčio kitimas. Pašalinus du veiksnius, modelyje liko nereikšmingas laisvasis narys b0. Galima suskaičiuoti modelį ir be laisvojo nario. Norint tai padaryti Excel skaičiuoklėje, išsikvietus Regression'>Data Analysis _ Regression, reikėtų uždėti varnele ties Constant is Zero. Visgi, nereikėtų skubėti atsisakyti laisvojo nario, nes jo buvimas modelyje užtikrina antrosios klasikinės regresijos prielaidos tenkinimą, kuri reikalauja, kad modelio paklaidų vidurkis turi būti lygus nuliui. Jeigu modelyje yra laisvasis narys, tuomet modelio paklaidų vidurkis visuomet bus lygus nuliui.

Aprašytus veiksmus veiksmus galima atlikti su logaritmuotais duomenimis



Apibendrinant septintojo žingsnio rezultatus, galima užrašyti galutines regresijos lygtis su reikšmingais kintamaisiais:

TS

Yduonos kaina = 0,921+ 0,001Xrugių kaina +0,001Xdarb užm +0,26XDyzelinas+ e

LN

ln(Yduon kaia )= -2,971β0 + +0,081(Xrugių kaina) +0,496 ln(Xdarbu užm)+,0219ln(Xdyz_kaina) +e



Jeigu Jūsų kompiuteryje nėra Data Analysis modulio, jį reikia aktyvinti. Tai atliekame tokiu būdu. Windows XP ar kitoje operacinėje sistemoje paleidžiame veikti Excel programą, paspaudę pagrindinio meniu mygtuką File pasirenkame Excel pasirinktys ( Options). Šiame lange pasirenkame Priedai (Add-Isn) ir aktyviname pažymėdami Analizės įrankų paketą ir Analizės įrankių paketą VBA. Lango apačioje paspaudžiame mygtuką Vykdyti (Go). Pasirodo lentelė kurioje reikia pažymėti varneles ties Analizės įrankų paketas ir Analizės įrankių paketas VBA ir paspausti mygtuką OK. Po šių veiksmų pagrindinio meniu juostoje esančioje grupėje Duomenys (DATA) dešiniame viršutiniame kampe atsiras modulis Data Analysis, kuris ir išliks Jūsų kompiuteryje.

Regresinio modelio apskaičiavimui reikia atverti Data Analysis langą, kuriame matysite duomenų analizės priemonių sąrašą. Pasirinkite Regression ir paspauskite mygtuką OK, Ekrane pasirodys lentelė Regression, kurioje langeliuose: Input Y range ir Input X range reikia pažymėti atitinkamų duomenų pirmojo ir paskutinio stebėjimų langelių koordinates arba su pele apibrėžti y stulpelį ir x kintamųjų duomenų lentelę. Pažymint duomenų lentelę galima įtraukti ir kintamųjų pavadinimų langelius. Labai svarbu, kad kintamųjų x ir y stebėjimų skaičius būtų vienodas. Po to, žemiau esančiuose trijuose langeliuose programa prašo nurodyti ir pažymėti varneles Labels langelyje, jeigu, žymėdami duomenis, įtraukėte ir pavadinimo langelius, Langelyje Constant is Zero, reikia pažymėti varnelę jeigu norite modelį suskaičiuoti be laisvojo nario. Langelyje Confidence Level galima įrašyti kitokią intervalinių įverčių pasikliovimo tikimybę, pvz. 0,9. Programa tuomet skaičiuoja pasikliautinus intervalus su 0,95 ir 0,9 proc.tikimybe. Toliau Regression lentelės Output srityje reikia nurodyti vietą, kuioje bus patalpinti skaičiavimo rezultatai. Patogiausia juos patalpinti tos pačios bylos naujame puslapyje New Worksheet Ply ir nurodyti pavadinimą, pvz skaičiuojant tiesinį modelį – TS, o logaritminį LN .

Paskutinėje Regression lentelės skiltyje Residuals programa prašo pažymėti , kuriuos regresinio modelio skaičiavimų rezultaus pateikti išklotinėje. Galima pažymėti visus langelius, tačiau svarbiausia pažymėti Residuals ir Standartized residuals, t.y.,kad būtų suskaičiuotos modelio paklaidos ir standatizuotos paklaidos.

Atlikę visas šias operacijas gauname TS ir LN modelių koeficientų reikšmes, kurie yra pateikti skaičiavimų išklotinėse, esančiose prieduose 2 ir 3 trečiosios lentelės skiltyje Coefficients
Duonos kainų priklausomybės tyrime turime du modelius: TS ir LN ir kiekviename iš jų po šešis koeficientus, kuriuos reikia apskaičiuoti taikant MKM. Šiam tikslui labai patogu naudotis Microsoft Excel skaičiuokle duomenų analizės Data Analysis moduliu. Prieš kviesdami Data Analysis turime sutvarkyti duomenų lentelę, kurioje pirmame stulpelyje būtų surašyti priklausomojo kintamojo y stebėjimai. Greta lentelėje stulpeliais, nepaliekant tuščių langelių, stulpelių ir eilučių turi būti surašyti įtakojančių veiksnių x stebėjimų duomenys. (priedai 1)
Atlikę visas Excel komandas galima surašyti du pasirinktus regresinius modelius su skaitinėmis reikšmėmis.

TS

Yduonos kaina = 0,4180+0,065+Xdyz kaina +0,001Xrugių kaina +0,005Xelek kaina +0,001Xdarbu užm +0,231XCukrus+0,011DPVM+ ε

LN

ln(Yduon kaia )= -2,311β0 + 0,022ln(Xdyz_kaina +0,09(Xrugių kaina) +-0,03 ln(Xelek kaina) +0,419 ln(Xdarbu užm )+ 0,189 lnXCukrus +0,010DPVM+ ε



Aštuntas žingsnis. Modelio patikimumo tikrinimas Paklaidų analizė.




Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2017
rəhbərliyinə müraciət

    Ana səhifə