The arboretum procedure



Yüklə 3.07 Mb.

səhifə59/148
tarix30.04.2018
ölçüsü3.07 Mb.
1   ...   55   56   57   58   59   60   61   62   ...   148
: documentation
documentation -> From cyber-crime to insider trading, digital investigators are increasingly being asked to
documentation -> EnCase Forensic Transform Your Investigations
documentation -> File Sharing Documentation Prepared by Alan Halter Created: 1/7/2016 Modified: 1/7/2016
documentation -> Gaia Data Release 1 Documentation release 0

24

§

PROC DMNEURL: Approximation to PROC NEURAL



(b) The –TYPE–=–PARMS– observations contain for each activation

function the

Ô

¾

·



½

parameter estimates. Here, the –MEAN–

variable contains the value for the optimization criterion and the

– STDEV– variable contains the accuracy value of the prediction.



OUT=SASdataset : specifies an output data set generated by PROC DMNEURL

which contains the predicted values (posteriors) and residuals for all observa-

tions in the DATA= input data set.

Variables of the output data set:

Ú

Ö

Ò



Ñ

values of all ID variables



– TARGET– (character) name of the target

– STAGE– number of stage

– P– predicted value (

Ý

)



– R– residual (

Ý

 



Ý

)

The following variables are added if a DECISION statement is used:



– BSTDEC–

– CONSEQ–

– EVALUE– expected profit or cost value

Ú

Ö



expected values for all decision variables

The number of observations in the OUT= data set agrees with that of the

DATA= input data set.

TESTOUT=SASdataset :

specifies an output data set which is in structur identical to the OUT= output

data set but relates to the information given in the TESTDATA= input data set

rather than that of the DATA= input data set used in the OUT= output data set.

The number of observations in the TESTOUT= data set agrees with that of the

TESTDATA= input data set.



OUTFIT=SASdataset :

specifies an output data set generated by PROC DMNEURL which contains

a number of fit indices for each stage and for the final model estimates. For

a binary target (response variable) it also contains the frequencies of the

¾

¢

¾



accuracy table of the best fit at the final stage. The same information is

additionally provided if a TESTDATA= input data set is specified.

Variables of the output data set:

– TARGET– (character) name of the target

– DATA– (character) specifies the data set to which the fit criteria correspond:

=TRAINING: fit criteria belong to DATA= input data set =TESTDATA:

fir criterai belong to TESTDATA= input data set

– TYPE– (character) describes type of observation

– TYPE–=– FITIND– for fit indices;

– TYPE–=– ACCTAB– for frequencies of accuracy table (only for bi-

nary target)




Purpose of PROC DMNEURL

§

25



– STAGE– number of stages in the estimation process

– SSE– sum-of-squared error of solution

– RMSE– root mean squared error of solution

– ACCU– percentage of accuracy of prediction (only for categorical target)

– AIC– Akaike information criterion

– SBC– Schwarz’ information criterion

The following variables are added if a DECISION statement is used:



– PROF–

– APROF–

– LOSS–

– ALOSS–

– IC–

– ROI–

OUTSTAT=SASdataset :

specifies an output data set generated by PROC DMNEURL which contains all

eigenvalues and eigenvectors of the

¼

matrix. When this option is specified,



no other computations are performed and the procedure terminates after writing

this data set.

Variables of the OUTSTAT= output data set:

– TYPE– (character) type of observation

– EIGVAL– contains different numeric information

Ú

Ö



Ò

Ñ

variables in the model; the first variables correspond to CLASS



(categorical) the remaining variables are continuously (interval or ratio)

scaled. Note, that for nonbinary CLASS (nominal or ordinal categorical)

variables a set of binary dummy variables is created. In those cases the

prefix of variable names

Ú

Ö

Ò



Ñ

used for a group of variables in the

data set may be the same for a successive group of variables which differs

only by a numeric suffix.

Observations of the OUTSTAT= output data set:

1. The first three observations, –TYPE–=–V–MAP– and –TYPE–=–C–MAP–,

contain the mapping indices between the variables used in the model and

the number of the variables in the data set. The –EIGVAL– variable

contains the number of index mappings. This is the same information

as in the first observation of the OUTEST= data set, except that here

the –TYPE–=–EIGVAL– variables replaces the –TYPE–=–MEAN–

variable in the OUTEST= data set.

2. The –TYPE–=–EIGVAL– observation contains the sorted eigenvalues of

the


¼

matrix.


3. The –TYPE–=–EIGVEC– observations contain a set of

Ò

eigenvectors



of the

¼

matrix. Here, the –EIGVAL– variable contains the eigen-



value to which the eigenvector corresponds.


26

§

PROC DMNEURL: Approximation to PROC NEURAL



ABSGCONV, ABSGTOL :

Ö

¼



specifies an absolute gradient convergence criterion for the default

(OPTCRIT=SSE) optimization process.

See the document of PROC NLP

in SAS/OR for more details. Default is ABSGCONV=5e-4 in general and

ABSCONV=1e-3 for FUNCTION=EXP.

CORRDF : specifies that the correct number of degrees of freedom is used for the

values of RMSE, AIC, and SBC. Without specifying CORRDF the error de-

grees of freedom are computed as

Ï

 



Ô

, where


Ï

is the sum of weights

(if the WEIGHT statement is not used, each observation has a weight of 1 as-

signed, and

Ï

is the total number of observations) and



Ô

is the number of

parameters. When CORRDF is spefified the value

Ô

is replaced by the rank of



the joint Jacobian.

COV, CORR : specifies that a covariance or correlation matrix is used for comput-

ing eigenvalues and eigenvectors compatible with the PRINCOMP procedure.

The COV and CORR options are valid only if an OUTSTAT= data set is speci-

fied. If neither COV nor CORR are specified, the eigenvalues and eigenvectors

of the cross product matrix

Ì

are computed and written to the OUTSTAT=



data set.

CRITWGT=r :

Ö

¼



specifies a positive weight for a weighted least squares fit. Currently this option

is valid only for binary target. Values of

Ö

½

will enforce a better fit of the



(1,1) entry in the accuracy table which may be useful for fitting rare events.

Values of

¼

Ö

½



will enforce a better fit of the (0,0) entry in the accuracy

table. Note, that values for

Ö

which are far away from



Ö

½

will reduce the fit



quality of the remaining entries in the frequency table. At this time values of

either


½

Ö

¾



or

Ö

½



are preferred.

CUTOFF=r :

¼

Ö



½

specifies a cutoff threshold for deciding when a predicted value of a binary

response is classified as 0 or 1. The default is

ÙØÓ


. If the value of

the posterior,

´Ý

µ

, for observation



is smaller the specified cutoff value, the

observation is counted in the first column of the accuracy table (i.e. as 0),

otherwise it is counted in the second column (i.e. as 1). For nonbinary target

the cutoff= value is not used.



GCONV, GTOL :

Ö

¼



specifies a relative gradient convergence criterion for the optimization process.

See the document of PROC NLP in SAS/OR for more details. Default is

GCONV=1e-8.

FCRIT specifies that the probability of the

test is being used for the selction of

principal components rather than the default

Ê

¾



criterium.

MAXCOMP=i :

¾

specifies an upper bound for the number of components selected for predicting



the target in each stage. Good values for MAXCOMP are inbetween 3 and 5.

Note, that the computer time and core memory will increase superlinear for





Dostları ilə paylaş:
1   ...   55   56   57   58   59   60   61   62   ...   148


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2017
rəhbərliyinə müraciət

    Ana səhifə