Regresinė analizė: samprata ir turinys

Regresijos lygties statistinio reikšmingumo įvertinimas

Yüklə 0,59 Mb.

səhifə	5/9
tarix	14.09.2018
ölçüsü	0,59 Mb.
	#68131

1 2 3 4 5 6 7 8 9

Regresijos lygties statistinio reikšmingumo įvertinimas

Taikant regresinę analizę neužtenka įvertinti, kiek priklausomojo kintamojo kitimo paaiškina nepriklausomų kintamųjų veikimas. Logiška, kad atlikus mažai stebėjimų daryti išvadas apie daugelio veiksnių įtaką, net ir turint aukštą determinacijos koeficientą nėra patikima. Pvz., turint tik pusmečio, t.y., 6 stebėjimų duonos kainos priklausomybę nuo išteklių kainų regresijos vertinimai nėra patikimi. Norint žinoti, ar galima pasikliauti apskaičiuota regresiniu modeliu, yra atliekama regresijos statistinio reikšmingumo tikrinimo procedūra, naudojant Fišerio testą. Tuo tikslu skaičiuojama F statistika,

kur α- pasirinktas reikšmingumo lygmuo, k ir n-k-1 yra atitinkami laisvės laipsnių skaičiai F-statistikos skaitiklyje ir vardiklyje.

Jei pagal regresiją apskaičiuota F statistika yra didesnė už pasirinkto reikšmingumo

lygmens teorinę F_{k, ,n-k-1} skirstinio reikšmę, tai apskaičiuota regresija yra statistiškai reikšminga.

Hipotezės tikrinimo procedūr tradiciškai susideda iš keturių žingsnių:

1. žingsnis. Iškeliam hipotezes:

H₀: ₁ =₂ =… =_k = 0, (visi parametrai prie nepriklausomų kintamųjų yra lygūs 0 t.y., regresija yra nereikšminga, nes nė vienas veiksnys neįtakoja priklausomojo kintamojo)

H_A: bent vienas iš parametrų _j nėra lygus 0 (regresija statistiškai reikšminga, nes yra bent vienas veiksnys, kuris įtakoja priklausomą kintamąjį)

2 žingsnis Apskaičiuojama pagal formulę F statistikos reikšmė ir laisvės laipsnių skaičius k, ir n-k-1.

3 žingsnis Apskaičiuotą faktinę F reikšmę lyginame su pasirinkto reikšmingumo, pvz., 5 proc. (=0,05), teorine F_k,n-k-1 reikšme iš F-skirstinio lentelių (žr. priedus 8)

4 žingsnis Išvada. Jeigu F_{apskaičiuota}> F_k,n-k-1 , tuomet su 95% pasikliovimo lygmeniu atmetame nulinę hipotezę, jog regresija yra statistiškai nereikšminga ir priimame alternatyvią, kad bent vienas nepriklausomas kintamasis įtakoją nagrinėjamą kintamąjį. Jeigu yra priešingai ,t.y., F_{apskaičiuota}< F_k,n-k-1 , tuomet negalime atmesti H₀hipotezės, kad kintamųjų priklausomybė yra statistiškai nereikšminga.

Visa reikiamus regresijos statistinio reikšmingumo tikrinimui reikalingus rodiklius galima matyti Excel –Regression skai

iavimų išklotinės (priedai 4,5) antroje lentelėje ANOVA

ANOVA
	Df-laisvės laipsniai	SS-kvadratinių nuokrypių sumos	MS (Stulpelis SS/df-laisvės laipsnių)	F – apskaičiuota	Reikšmingumo lygmuo F
Regression (E)	3	2,409	0,803	225,772	0,000
Residual ( R)	32	0,114	0,004
Total (T)	35	2,523

Determinacijos koeficientas yra apskaičiuojamas iš SS stulpelio duomenų

R²=ESS/TSS2,409/2,523=0,955, o F_{apskaičiuota}EMS/RMS=0.804/0.004225.772
Regresijos statistinio reikšmingumo hipotezei patikrinti atliekami tokie žigsniai:

1. žingsnis. Tikriname hipotezę, ar regresinis ryšys yra statistiškai reikšmingas:

H₀: visi parametrai _j =0, prie kintamųjų (mūsų pavyzdyje turime 3 nepriklausomus kintamuosius x^{rugių kaina}, x^dyzelino kaina ir x^{darbo užm} ) yra statisiškai nereikšmingi

H_A: bent vienas iš parametrų _j, nėra lygus 0 (regresija statistiškai reikšminga)

2 žingsnis Apskaičiuojame pagal formulę statistikos F_{apskaičiuota}reikšmę, ir laisvės laipsnius :k=3 ir n-k-1=36-3-1=32 laisvės laipsniai:

3 žingsnis F_{apskaičiuota} reikšmę lyginame su 5 proc. (=0,05) reikmingumo teorine

F_3,32=2,92 reikšme iš F-skirstinio lentelių (žr. priedus8). Matome, kad

F_{apskaičiuota} =225,772> F_3,32= 2,92

4 žingsnis Išvada. Su 95% pasikliovimo lygmeniu atmetame nulinę hipotezę ir priimame alternatyvią hipotezę, kad bent vienas veiksnys reikšmingai įtakoja duonos kainą, t.y., modelis yra statistiškai reikšmingas

Septintas žingsnis: Veiksnių statistinio reikšmingumo analizė

Šeštame žingsnyje suskaičiuoti regresinio modelio koeficientai vadinami taškiniais parametrų įverčiais. Jeigu apskaičiuoti įverčiai yra patikimi ir tenkina regresijos klasikines prielaidas, t.y., jie turi būtinas įverčių savybes –yra tiesiniai, nepaslinkti, suderinti ir efektyvūs. Modelio sudarytojas prieš taikydamas šiuos koeficientus verslo situacijos analizei BŪTINAI turi įsitikinti įverčių patikimumu, nes Excel skaičiuoklė visuomet pateiks įverčių skaitines reikšmes. Įverčių patikimumo tikrinimas apima tokias procedūras:1) įverčių statistinio reikšmingumo patikrinimas, apskaičiuojant koeficientų paklaidas, sudarant pasikliautinus intervalus ir patikrinant veiksnių statistinio reikšmingumo hipotezes. 2) Patikrinti veiksnių koreliuotumo galimybę, t.y., (penktoji klasikinė regresijos prielaida).

kur i – stebėjimo numeris, y_i-faktinėi-ojo stebėjimo priklausomojo kintamojo reikšmė,

- teorinė t.y. apskaičiuota pagal regresijos lygtį, i- ojo stebėjimo priklausomojo kintamojo reikšmė, x_I i-oji nepriklausomojo kintamojo reikšmė, x –nepriklausomojo kintamojo vidurkis.

k yra nepriklausomų kintamųjų ir atitinkamai vertinamų koeficientų prie jų skaičius. Porinės regresijos atveju jis yra lygus – 1. Jeigu regresijoje yra laisvasis narys, tuomet bendras vertinamų koeficientų skaičius yra vienu didesnis negu nepriklausomų kintamųjų skaičius, t.y., porinės regresijos atveju yra apskaičiuojami du modelio koeficientai, o dauginės regresijos atveju k+1

Taigi parametro β_j intervalinis įvertis užrašomas taip:

β_j [b_j  t_n-k-1,/2SE_bj]., arba P[b_i - t_n-k-1,/2SE_bi≤ β_j ≤ b_i + t_n-k-1,/2SE_bi] =1-α.,

kur apatinis β_jįverčio rėžis yra lygus: b_j - t_n-k-1,/2SE_bj., o viršutinis b_I rėžis: b_i + t_n-k-1,/2SE_bi.,

SE_I- standartinė i- įverčio paklaida, apskaičiuota pagal viršuje patektas formules

t_n-k-1,/2 - teorinė Student’o skirstinio statistika su n-k-1 laisvės laipsnių skaičiumi ir  reikšmingumo lygmeniu, Regresinėje analizėje laisvės laipsniai – tai stebėjimų skaičiaus ir įtrauktų į modelį koeficientų skaičiaus skirtumas. Pavyzdžiui, turime 100 stebėjimų ir vertiname 10 parametrų, tai turėsime 90 laisvų stebėjimų, Patogumo dėlei vertinamų parametrų skaičių galime sutapatinti su į regresiją įtrauktų nepriklausomų kintamųjų (įtakojančių veiksnių skaičiumi). Tik svarbu atkreipti dėmesį,ar regresinė lygtis turi laisvąjį narį, nes tokiu atvejų k padidėja vienu vienetu, žyminčiu laisvąjį narį. Kuo didesnis laisvės laipsnių skaičius, tuo tikslesnis gaunamas įvertis.

Skaitinė t_n-k,/2 reikšmė randama iš Studento statistinių skirstinių lentelių. (žr. priedą 7). Reikšmingumo lygmenį  pasirenka tyrinėtojas. Dažniausiai sutinkamas = 0,05, kuris reiškia, kad išvados yra daromos su 5 proc. tikimybe suklysti arba, 1-0,05=0,95, t.y 95 proc. pasikliovimo lygmeniu. n yra stebėjimų, skaičius, k+1 – vertinamų parametrų skaičius,

Atlikus visus skaičiavimus gaunamas intervalas į kurį su tikimybe 1-  patenka tikroji parametro reikšmė. Kuo šis intervalas yra siauresnis, tuo tikslesnis yra parametro įvertis.

Iš intervalinio iverčio formulės matyti, kad įverčiai bus tuo tikslesni, kuo mažesnės bus įverčių paklaidos ir didesnis laisvės laipsnių skaičius. Taigi norint gauti tikslesnius įverčius, reikia siekti dviejų dalykų: pirma, kad į analizę įtrauktų stebėjimų skaičius n būtų kiek galima didesnis, ir, antra, kad įtakojančių veiksnių (nepriklausomų kintamųjų) reikšmės būtų kuo įvairesnės.

Excel skaičiuoklės išklotinėje (žr. priedus 2) yra pateikiamos įverčių standartinių paklaidų bei intervalinių įverčių apatinio ir viršutinio rėžių reikšmės .

TS –tiesinio modelio įverčių skaičiavimo rezultatai (Excel išklotinė)

	Koeficientai	Standartinė paklaida	t Stat	P-reišmė	Apatinis rėžis 95%	Viršutinis rėžis 95%
Laisvasis narys	0,418	0,802	0,521	0,606	-1,222	2,059
Dyzelino kaina, Lt/ltr	0,065	0,092	0,702	0,488	-0,123	0,252
Rugiai, Lt/t	0,001	0,000	6,265	0,000	0,0006	0,0012
Elektros kaina, ct/kWh	0,005	0,008	0,630	0,533	-0,011	0,021
Vid. Darbo Užmokestis, Lt/mėn.	0,001	0,000	3,546	0,001	0,001	0,002
Cukraus kaina, Lt/kg	0,231	0,065	3,543	0,001	0,097	0,364
PVM pakeitimas	0,011	0,032	0,359	0,722	-0,053	0,076

Pateiktoje lentelėje yra apskaičiuotos koeficientų reikšmės, pateiktos stulpelyje Koeficientai, jų standartinės paklaidos ir pasikliautini intervalai. Pastarieji parodo, kad 95 proc. tikimybę galima teigti, kad tikroji pz. laisvojo nario β₀ parametro reikšmė yra intervale [-1,222; 2,059], o parametro prie rugių kainos , kurio įvertis b^{rugių kaina}= 0,001 pasikliautinas intervalas yra gerokai siauresnis [0,0006;0,0012]. Kuo mažesnė standartinė paklaida to paties koeficiento, tuo bus tikslesni įverčiai ir siauresni pasikliautini intervalai.

Šioje dalyje prasminga turėti griežtesnį kriterijų, kurio pagalba galima būtų tiksliau atsakyti į klausimą, kokią įtaką daro konkretus veiksnys duonos kainai. Tokiu kriterijumi gali būti

hipotezių tikrinimo procedūra.

Hipotezės samprata

Hipotezė yra iš anksto griežtai suformuluotas ir tam tikra analize tikrinamas teiginys. Regresinėje analizėje taikant statistinių išvadų metodą hipotezė gali būti statistiškai atmetama arba neatmetama tačiau ji niekada nėra įrodoma.

Regresinėje analizėje hipotezių tikrinimo procedūroje būtini keturi elementai:

Nulinė hipotezė H_o

Alternatyvi hipotezė H_a,

Testo statistika,

Hipotezės paneigimo taisyklė.

Nulinė hipotezė (H₀) – tai teiginys arba prielaida, kuri statistiškai patvirtinama arba ne, remiantis nagrinėjamais stebėjimais.

Alternatyvi hipotezė (H_A) - tai teiginys arba prielaida, kuris yra teisingas, kai nulinė hipotezė statistiškai atmetama.

Jei patvirtinama nulinė hipotezė, tai alternatyvi hipotezė atmetama. Jei nepatvirtinama nulinė hipotezė, tai priimama alternatyvi. Taigi statistinę hipotezę sudaro dviejų alternatyvų visuma Statistiškai patvirtinti hipotezę reiškia, jog nagrinėjami duomenys teiginį patvirtins su didesne tikimybe negu pasirinktas patikimumo lygmuo.

Pateiktoje apačioje lentelėje pateiktos dažniausiai tikrinamos hipotezės apie regresinės lygties

y_i = ₀+₁x_1i+...+_kx_ki+_Iparametrus.

Pagrindinės regresinėje analizėje tikrinamos hipotezės

Tikrinamas teiginys	Nulinė (H₀) ir alternatyvi (H_A) hipotezė	Pastabos
Regresijos lygties laisvasis narys nereikšmingas (lygus nuliui)	H₀: ₀=0 H_A: ₀0
Nepriklausomas kintamasis neturi įtakos priklausomam kintamajam	H₀: _i=0, i=1,..k H_A: _i0, i=1...k
Nepriklausomojo kintamojo parametras yra lygus tam tikrai reikšmei	H₀: _i=c, H_A: _ic, c – tikrinama parametro reikšmė	Galima pastebėti, jog ankstesnės hipotezė H₀:_i=0, yra atskiras hipotezės H₀: _i=c atvejis, kai c=0.
Įvertinta regresija yra statistiškai nereikšminga	H₀: _i=0,  i, i=1..k H_A: _i0,  i, i=1..k	Tai jungtinė hipotezė, jog visi parametrai kartu paėmus nėra reikšmingi.

Vienpusė ir dvipusė hipotezė

Hipotezės gali būti vienpusės arba dvipusės. Dvipusės hipotezės atveju alternatyvi hipotezė formuluojama su nelygybės ženklu, pvz.:

a) Kintamųjų poveikio statistinio reikšmingumo tikrinimas (pvz. rugių kaina nedaro įtakos duonos kainai): H₀: _i = 0; H_a: _i ≠ 0

Vienpusės hipotezės atveju tikrinamo parametro reikšmės gali būti tik didesnės arba tik mažesnės už hipoteze tikrinamą dydį. Parametro konkretaus ženklo tikrinimas yra tokios hipotezės pavyzdys

Dydis t yra pasiskirstęs pagal Stjudento t-skirstinį su /2 reikšmingumo lygmeniu ir n-k-1 laisvės laipsniais. t.y t~ t_/2(n-k-1)

3 žingsnis Apskaičiuota t statistikos reikšmė lyginama su teorine t-skirstino t_/2(n-k-1) reikšme.

4 žingsnis. Daromos išvados Jei apskaičiuotos |t| reikšmės modulis yra didesnis už teorinę t-skirstinio reikšmę, tuomet nulinė hipotezė atmetama ir priimama alternatyvi hipotezė. Su 1- tikimybe (pvz., = 0,05, t.y., 95 proc. tikimybe) galime tvirtinti, kad j-ojo veiksnio poveikis yra statistiškai reikšmingas. Priešingu atveju, kai t apskaičiuotos reikšmės modulis yra mažesnis už teorinę reikšmę t_/2(n-k-1), negalime atmesti nulinės hipotezės, o tai reiškia, kad negalime tvirtinti, kad j veiksnio poveikis yra statistiškai reikšmingas.

Hipotezės paprastai tikrinamos, taikant 90% 95% ar 99% pasikliovimo lygmenį (1-), kas yra tas pats, kaip reikšmingumo lygmuo : 0,1%; 0,05%; 0,001%. Reikšmingumo lygmuo  rodo toleruojamą hipotezių tikrinimo klaidos tikimybę atmesti nulinę hipotezę, kai ji yra teisinga. Pvz. kai tikrinama hipotezė H₀β^{elekt. kaina}=0 (elektros kainos pokyčiai nedaro statistiškai reikšmingo poveikio duonos kainai) su reikšmingumo lygmeniu = 0,05, tai rodo kad tyrėjas 95% tikimybe teisingai atmeta H₀hipotezę, kad „elektros kainos poveikis yra statistiškai nereikšmingas“,. ir toleruoja 5% tikimybę klaidingai atmesti hipotezę nors tai netiesa.

Lygiavertę išvadą apie tikrinamą hipotezę galima gauti lyginant apskaičiuotąją t reikšmę atitinkantį faktinį reikšmingumo lygmenį p su analitiko pasirinktuoju  - reikšmingumo lygmeniu. Jei apskaičiuotas reikšmingumo lygmuo  yra mažesnis nei tyrėjo pasirinktas, tai nulinė hipotezė atmetama, jei didesnis –nulinės hipotezės atmesti negalima.

Veiksnių reikšmingumo tikrinimo pavyzdys

Kiekvienos regresinės analizės metu būtina patikrinti parametrų įverčių reikšmingumą. Pavyzdyje apie rugių kainos priklausomybę patikrinsime, kurių veiksnių kainų pokyčiai daro poveikį duonos kainą, o kurie neturi reikšmingos įtakos. Taigi, tikrinsime modelio koeficientų statistinio reikšmingumo hipotezę.

1. žingsnis. Tikrinama parametrų lygybės nuliui hipotezė

H₀: _j=0, (parametras prie nepriklausomojo kintamojo x_j yra lygus 0, t.y., konkretaus veiksnio kainos pokyčiai nedaro statistiškai reikšmingo poveikio duonos kainai)

H_A: _j0. (parametras prie nepriklausomojo kintamojo x nelygus 0 t.y., x_j nėra lygus 0, t.y., konkretaus veiksnio kainos pokyčiai daro statistiškai reikšmingą poveikį duonos kainai
2 žingsnis Apskaičiuojama t-stjudento testo statistikos visiens koeficientams.: t_b0 _{apskaičiuota}ir t.t. Šios statistikos yra pateiktos Excel išklotinėe pateiktoje lentelėje viršuje ir priede 2 lentelės stulpelyje t-stat.

3 žingsnis Visų koeficientų t_{apskaičiuota} - reikšmė lyginama su t_/2,n-k-1 teorine reikšme. Iš t pasiskirstymo lentelių (žr. priedas 7 ) randame t_0.05/2;29 = 2,045 (laisvės laipsnių skaičius: n-k-1=36 -6-1=29), ir /2=0,05/2=0.025 Palyginę apskaičiuotą t reikšmę su teorine t_0.025,29, matome, kad t_{apskaičiuota} =0,521 yra mažesnė už t_0.025,29 =2,045, o kintamojo rugių kaina

t_{apskaičiuota} =6,265> t_0.025,29=2,045

4 žingsnis Išvada. Su 95% tikimybe atmetama nulinė hipotezė H₀: _j=0 trims kintamiesiems: rugių kainai, darbo užmokesčiui ir cukraus kainai ir priimama alternatyvi hipotezė H_A: ₁0, kuri reiškia, kad šių veiksnių kainų pokyčiai statistiškai reikšmingai veikia duonos kainą.

Kitų gi kintamųjų: dyzelino, elektros kainų kitimas ir PVM mokesčio tarifo pakeitimo koeficientams atmesti H₀_j=0 hipotezės, kad jų poveikis yra statistiškai nereikšmingas, negalime, nes t_{apskaičiuotos}statistikos modulis yra mažesnis už t_0.05/2;29 = 2,045.

Analogiškai tikriname ir laisvojo nario statistinį reikšmingumą, kurio t_statistika yra mažesnė už t_0.05/2;29 = 2,045. Vadinasi ir laisvasis narys nėra statistiškai reikšmingas.
Kai yra daroma išvada, kad priklausomas kintamasis arba laisvasis narys yra statistikai nereikšmingas, tuomet iš naujo reikia skaičiuoti regresijos lygtį be to nepriklausomo kintamojo arba laisvojo nario. Įsidėmėtina, jog išmetus iš regresijos lygties nereikšmingą veiksnį, likusių nepriklausomų kintamųjų parametrų įverčiai ir standartinės paklaidos keičiasi, todėl turi būti iš naujo įvertinti parametrai ir patikrintas jų reikšmingumas.
Atlikus statistinio veiksnių reikšmingumo testus ir suradus, kad modelyje yra nereikšmingų kintamųjų, reikia išsiaiškinti nereikšmingumo priežastis ir koreguoti modelį. Kintamieji gali būti statistiškai nereikšmingi dėl šių priežasčių:

Veiksniai iš tiesų nedaro įtakos nagrinėjamas reiškiniui. Jeigu tai yra tiesa, tuomet ši statistinė išvada yra dėsninga, kuri suteikia mums svarbios informacijos, kad parinktas veiksnys reikšmingos įtakos nagrinėjamam reiškiniui neturi.
Tyrimui surinkta per mažai duomenų ir dėl laisvės laipsnių trūkumo, gaunamos didelės įverčių paklaidos. Šiuo atveju reikėtų papildyti duomenų eilutes naujais stebėjimais. Vertėtų prisiminti ekonometrijoje taikomą „Nykščio taisyklę“ kuri sako, kad, norint išvengti kintamųjų nereikšmingumo dėl per mažo laisvės laipsnių skaičiaus, į modelį įtrauktų stebėjimų skaičius bent 6 kartus turi būti didesnis už nepriklausomų kintamųjų skaičių.
Tam tikri veiksniai netenkina interkoreliacijos klasikinės prielaidos, todėl gavome modelį su nereikšmingais kintamaisiais. Kaip patikrinti šią prielaidą, bus paaiškinta žemiau.
Neteisingai parinkta modelio matematinė forma. Šiuo atveju galima pabandyti kintamąjį įtraukti į modelį kita forma, pvz. logaritmine arba kvadratine.

Suskaičiavus regresinį modelį ir pastebėjus, kad yra statistiškai nereikšmingų veiksnių, vertėtų patikrinti penktąją klasikinę regresijos prielaidą, apie nepriklausomų kintamųjų multikolinearumą.

Septintame žingsnyje patikrinę veiksnių statistinio reikšmingumo hipotezes radome, duonos kainai statistiškai reikšmingą įtaką daro rugių kaina, darbo užmokestis ir cukraus kaina, o dyzelino, elektros kainų kitimas, PVM mokesčio tarifo pakeitimas ir laisvasis narys yra statistikškai nereikšmingi veiksniai. Gavus tokius rezultatus verta patikrinti ar veiksnių nereikšmingumas nėra atsiradęs dėl multikolinearumo. Šiuo tikslu suskaičiuojame porinių koreliacijų matricą Excel skaičiuoklės pagalba

Apačioje pateikiama porinių koreliacijų koeficientų lentelė

Koreliacijos matricos apskaičiavimui reikia atverti Data Analysis langą, kuriame matysite duomenų analizės priemonių sąrašą. Pasirinkite Correlation ir paspauskite mygtuką OK, Ekrane pasirodys lentelė Correlation, kurioje langeliuose: Input Y range reikia pažymėti atitinkamų duomenų pirmojo ir paskutinio stebėjimų langelių koordinates arba, atsistojus įrašo langelyje, su pele apibrėžti Y ir X kintamųjų duomenų lentelę. Pažymint duomenų lentelę, galima įtraukti ir kintamųjų pavadinimų langelius. Tuomet reikėtų varnelę uždėti langelyje ties Labels_in_first_row'>Labels in first row, Grouped by srityje reikia pažymėti Columns. Srityje Output reikia nurodyti vietą, kurioje bus patalpinti skaičiavimo rezultatai. Patogiausia -talpinti tos pačios bylos naujame puslapyje New Worksheet Ply ir nurodyti pavadinimą, pvz Koreliacija

Pagrindinėje lentelės įstrižainėje matome koreliacijos koeficientus lygius vienetui, t.y., visišką duomenų sutapimą, ir tai yra dėsninga, nes tai ryšis tarp to paties kintamojo duomenų. Paryškintame lentelės stulpelyje yra pateikiami porinės koreliacijos koeficientai tarp Y ir visų X, t.y., duonos kainos ir įtrauktų X veiksnių. DU koeficientai šiame stulpelyje yra artimi 1 ir rodo stiprų sąryšį tarp duonos kainos ir dyzelino bei rugių kainos, kiti šio stulpelio rodo vidutinį ryšio stiprumą. Pirmame stulpelyje esantys koeficientai nesukelia multikolinearumo problemos. Blogai yra tuomet, kai likusioje, be pažymėto stulpelio, matricos dalyje yra didesnių negu |0,8| koreliacijos koeficientų reikšmių. Tokios koeficientų reikšmės yra tarp dviejų porų kintamųjų: dyzelino bei rugių kainų susikirtime(0,89) ir cukraus bei dizelino (0,87) Taigi dyzelino, rugių ir cukraus kainos turi labai panašias kitimo tendencijas, todėl skaičiuojant koeficientus MKM metodu jų reikšmės gali būti paslinktos t.y., nutolusios nuo tikrųjų parametro reikšmių. Rugių ir dizelino kainų pokyčiai yra svarbūs tyrime todėl abu kintamuosius tikslinga išsaugoti modelyje. Problemą išspręsime pakeisdami dyzelino duomenis į dirbtinį kintamąjį, kuris įgauna tik tris reikšmes 3,5; 4,0; 4,5 Lt/ltr. t.y., dizelino kainoms iki 3,5 Lt, suteikiama reikšmė 3,5 Lt.; kainoms, didesnėms už 3,5 bet mažesnėms už 4,0 Lt priskiriama 4,0 Lt. reikšmė, o kainoms didesnėms už 4 Lt. bet mažesnėms už 4,5 Lt priskiriama kaina 4,5 Lt. Padarius tokį pakeitimą, koreliaciją tarp dyzelino ir rugių kainų sumažėjo iki 0,72. Todėl tolesniuose skaičiavimuose dyzelino kaina bus įtraukta dirbtiniu pavidalu. Tačiau toks dyzelino kainos pakeitimas neišsprendė interkoreliacijos problemos tarp cukraus ir dyzelino kainų. Kadangi cukraus duonos sudėtyje yra labai mažai, o transportavimo kaštai gana žymus, tai atsiradusią stiprią koreliaciją tarp šių veiksnių galima eliminuoti, atsisakant vieno iš veiksnių. Šiuo atveju –cukraus kainos. Todėl tolesnėje tyrimo eigoje cukraus kintamojo į modelį nebeįtrauksime. Atlikus šiuos pakeitimus galima teigti, kad sudarytas modelis tenkina penktąją klasikinę regresinio modelio prielaidą apie multikolinearumo nebuvimą.

Statišktiškai nereikšmingų veiksnių atsisakymas

Išsprendus multikolinearumo problemą, suskaičiuojame naują regresijos lygtį su pakeistais dyzelino duomenimis ir be kintamojo cukraus kaina. Žemiau pateikiama naujos regresijos duomenų lentelė

	Koefiientai	Standarinės paklaidos	t Stat	P-reikšmė	Viršutinis 95%	Apatinisr 95%
Intercept	0,483	0,896	0,539	0,594	-1,346	2,312
Rugiai, Lt/t	0,001	0,000	8,120	0,000	0,001	0,001
Vid. Darbo Užmokestis, Lt/mėn.	0,001	0,000	3,055	0,005	0,000	0,002
PVM pakeitimas	0,005	0,035	0,142	0,888	-0,066	0,076
Elektros kaina, ct/kWh	0,003	0,007	0,527	0,602	-0,010	0,017
Dyzelino kainos dirbt dydis	0,269	0,044	6,118	0,000	0,179	0,358

Pakeistame modelyje vis dar lieka du statistiškai nereikšmingi veiksniai: PVM tarifo pakeitimas ir elektros kaina t_stat=0,527 bei laisvasis narys b₀. t_stat=0,539 Labai realu, kad pirmieji du kintamieji labai silpnai veika 1 kg. duonos kainą. Todėl tikėtina, kad šis statistinis nereikšminumas atspindi faktą, kad nei PVM pakeitimas nei elektros kainų didėjimas duonos kainai reikšmingos įtakos neturėjo. Įprasta, kad regresiniame modelyje neturėtų būti statistiškai nereikšmingų veiksnių, todėl x^{elektros tarif}ir D^PVMkintamuosius reikėtų pašalinti iš modelio. Kai yra daroma išvada, kad priklausomas kintamasis arba laisvasis narys yra statistikai nereikšmingi, tuomet iš naujo reikia skaičiuoti regresijos lygtį be nereikšmingo nepriklausomo kintamojo arba laisvojo nario. Įsidėmėtina, jog išmetus iš regresijos lygties nereikšmingą veiksnį, likusių nepriklausomų kintamųjų parametrų įverčiai ir standartinės paklaidos keičiasi, todėl turi būti iš naujo įvertinti parametrai ir patikrintas jų reikšmingumas.

Paprastai nereikšmingi kintamieji yra šalinami po vieną, pradedant nuo to veiksnio, kurio t_apskaičiuot statistika moduliu yra mažiausia. Mūsų pavyzdyje fiktyvaus kintamojo PVM mokesčio pakeitimų statistika yra mažiausia. Todėl apskaičiuojame dar vieną modelį be kintamojo x^PVM Atlikti skaičiavimai parodė, kad išmetus veiksnį x^PVM ir perskaičiavus regresiją, elektros kainos reikšmingumas nepasikeitė ir naujame modelyje, todėl atsisakome ir kintamojo elektros kainos ir liekame prie modelio su trimis kintamaisiais: rugių kaina, dyzelino kaina ir darbo užmokesčio kitimas. Pašalinus du veiksnius, modelyje liko nereikšmingas laisvasis narys b₀. Galima suskaičiuoti modelį ir be laisvojo nario. Norint tai padaryti Excel skaičiuoklėje, išsikvietus Regression'>Data Analysis _ Regression, reikėtų uždėti varnele ties Constant is Zero. Visgi, nereikėtų skubėti atsisakyti laisvojo nario, nes jo buvimas modelyje užtikrina antrosios klasikinės regresijos prielaidos tenkinimą, kuri reikalauja, kad modelio paklaidų vidurkis turi būti lygus nuliui. Jeigu modelyje yra laisvasis narys, tuomet modelio paklaidų vidurkis visuomet bus lygus nuliui.

Aprašytus veiksmus veiksmus galima atlikti su logaritmuotais duomenimis

Apibendrinant septintojo žingsnio rezultatus, galima užrašyti galutines regresijos lygtis su reikšmingais kintamaisiais:

TS	Y^{duonos kaina}=0,921+ 0,001X^{rugių kaina}+0,001X^{darb užm}+0,26X^Dyzelinas+ e
LN	ln(Y^{duon kaia})= -2,971β₀++0,081(X^{rugių kaina})+0,496 ln(X^{darbu užm})+,0219ln(X^dyz_kaina)+e

Jeigu Jūsų kompiuteryje nėra Data Analysis modulio, jį reikia aktyvinti. Tai atliekame tokiu būdu. Windows XP ar kitoje operacinėje sistemoje paleidžiame veikti Excel programą, paspaudę pagrindinio meniu mygtuką File pasirenkame Excel pasirinktys ( Options). Šiame lange pasirenkame Priedai (Add-Isn) ir aktyviname pažymėdami Analizės įrankų paketą ir Analizės įrankių paketą VBA. Lango apačioje paspaudžiame mygtuką Vykdyti (Go). Pasirodo lentelė kurioje reikia pažymėti varneles ties Analizės įrankų paketas ir Analizės įrankių paketas VBA ir paspausti mygtuką OK. Po šių veiksmų pagrindinio meniu juostoje esančioje grupėje Duomenys (DATA) dešiniame viršutiniame kampe atsiras modulis Data Analysis, kuris ir išliks Jūsų kompiuteryje.

Regresinio modelio apskaičiavimui reikia atverti Data Analysis langą, kuriame matysite duomenų analizės priemonių sąrašą. Pasirinkite Regression ir paspauskite mygtuką OK, Ekrane pasirodys lentelė Regression, kurioje langeliuose: Input Y range ir Input X range reikia pažymėti atitinkamų duomenų pirmojo ir paskutinio stebėjimų langelių koordinates arba su pele apibrėžti y stulpelį ir x kintamųjų duomenų lentelę. Pažymint duomenų lentelę galima įtraukti ir kintamųjų pavadinimų langelius. Labai svarbu, kad kintamųjų x ir y stebėjimų skaičius būtų vienodas. Po to, žemiau esančiuose trijuose langeliuose programa prašo nurodyti ir pažymėti varneles Labels langelyje, jeigu, žymėdami duomenis, įtraukėte ir pavadinimo langelius, Langelyje Constant is Zero, reikia pažymėti varnelę jeigu norite modelį suskaičiuoti be laisvojo nario. Langelyje Confidence Level galima įrašyti kitokią intervalinių įverčių pasikliovimo tikimybę, pvz. 0,9. Programa tuomet skaičiuoja pasikliautinus intervalus su 0,95 ir 0,9 proc.tikimybe. Toliau Regression lentelės Output srityje reikia nurodyti vietą, kuioje bus patalpinti skaičiavimo rezultatai. Patogiausia juos patalpinti tos pačios bylos naujame puslapyje New Worksheet Ply ir nurodyti pavadinimą, pvz skaičiuojant tiesinį modelį – TS, o logaritminį LN .

Paskutinėje Regression lentelės skiltyje Residuals programa prašo pažymėti , kuriuos regresinio modelio skaičiavimų rezultaus pateikti išklotinėje. Galima pažymėti visus langelius, tačiau svarbiausia pažymėti Residuals ir Standartized residuals, t.y.,kad būtų suskaičiuotos modelio paklaidos ir standatizuotos paklaidos.

Atlikę visas šias operacijas gauname TS ir LN modelių koeficientų reikšmes, kurie yra pateikti skaičiavimų išklotinėse, esančiose prieduose 2 ir 3 trečiosios lentelės skiltyje Coefficients
Duonos kainų priklausomybės tyrime turime du modelius: TS ir LN ir kiekviename iš jų po šešis koeficientus, kuriuos reikia apskaičiuoti taikant MKM. Šiam tikslui labai patogu naudotis Microsoft Excel skaičiuokle duomenų analizės Data Analysis moduliu. Prieš kviesdami Data Analysis turime sutvarkyti duomenų lentelę, kurioje pirmame stulpelyje būtų surašyti priklausomojo kintamojo y stebėjimai. Greta lentelėje stulpeliais, nepaliekant tuščių langelių, stulpelių ir eilučių turi būti surašyti įtakojančių veiksnių x stebėjimų duomenys. (priedai 1)
Atlikę visas Excel komandas galima surašyti du pasirinktus regresinius modelius su skaitinėmis reikšmėmis.

TS	Y^{duonos kaina}=0,4180+0,065+X^{dyz kaina}+0,001X^{rugių kaina}+0,005X^{elek kaina}+0,001X^{darbu užm}+0,231X^Cukrus+0,011D^PVM₊ε
LN	ln(Y^{duon kaia})= -2,311β₀+0,022ln(X^dyz_kaina+0,09(X^{rugių kaina})+-0,03ln(X^{elek kaina})+0,419 ln(X^{darbu užm})+ 0,189lnX^Cukrus +0,010D^PVM₊ε

Aštuntas žingsnis. Modelio patikimumo tikrinimas Paklaidų analizė.

Yüklə 0,59 Mb.

Dostları ilə paylaş:

1 2 3 4 5 6 7 8 9