The arboretum procedure



Yüklə 3.07 Mb.

səhifə1/148
tarix30.04.2018
ölçüsü3.07 Mb.
  1   2   3   4   5   6   7   8   9   ...   148
: documentation
documentation -> From cyber-crime to insider trading, digital investigators are increasingly being asked to
documentation -> EnCase Forensic Transform Your Investigations
documentation -> File Sharing Documentation Prepared by Alan Halter Created: 1/7/2016 Modified: 1/7/2016
documentation -> Gaia Data Release 1 Documentation release 0


The ARBORETUM Procedure

Contents


OVERVIEW

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Terminology



. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

Basic Features



. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

Enterprise Miner Tree Desktop Application



. . . . . . . . . . . . . . . . . .

8

GETTING STARTED



. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

Running the ARBORETUM Procedure



. . . . . . . . . . . . . . . . . . . .

8

A Brief Example



. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

Selecting a Subtree



. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Changing a Splitting Rule

. . . . . . . . . . . . . . . . . . . . . . . . . . . 14

SYNTAX


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

PROC ARBORETUM Statement

. . . . . . . . . . . . . . . . . . . . . . . 16

ASSESS Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

BRANCH Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

CODE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

DECISION Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

DESCRIBE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

FREQ Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

INPUT Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

INTERACT Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

MAKEMACRO Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . 27

PERFORMANCE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . 27

PRUNE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

REDO Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

SAVE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

SCORE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

SEARCH Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

SETRULE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

SPLIT Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

SUBTREE Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

TARGET Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

TRAIN Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

UNDO Statement

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

DETAILS


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Form of a Splitting Rule

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36



2

The ARBORETUM Procedure

Posterior and Within Node Probabilities

. . . . . . . . . . . . . . . . . . . 36

Incorporating Prior Probabilities

. . . . . . . . . . . . . . . . . . . . . . 37

Incorporating Decisions, Profit, and Loss

. . . . . . . . . . . . . . . . . 38

Splitting Criteria

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Reduction in Node Impurity

. . . . . . . . . . . . . . . . . . . . . . . . 39

Statistical Tests and p-Values

. . . . . . . . . . . . . . . . . . . . . . . 40

Distributional Assumptions

. . . . . . . . . . . . . . . . . . . . . . . . 40

Multiple Testing Assumptions

. . . . . . . . . . . . . . . . . . . . . . . 41

Adjusting p-Values for Multiple Tests

. . . . . . . . . . . . . . . . . . . 42

Adjusting p-Values for the Number of Input Values and Branches

. . . . 43

Adjusting p-Values for the Depth of the Node

. . . . . . . . . . . . . . . 44

Adjusting p-Values for the Number of Input Variables

. . . . . . . . . . 44

Splitting Criteria for an Ordinal Target

. . . . . . . . . . . . . . . . . . 44

Missing Values

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Unseen Categorical Values

. . . . . . . . . . . . . . . . . . . . . . . . . . 46

Within Node Training Sample

. . . . . . . . . . . . . . . . . . . . . . . . . 46

Split Search Algorithm

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Surrogate Splitting Rules

. . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Tree Assessment and the Subtree Sequence

. . . . . . . . . . . . . . . . . . 49

Retrospective Pruning

. . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Formulas for Assessment Measures

. . . . . . . . . . . . . . . . . . . . 50

Formula for Profit and Loss

. . . . . . . . . . . . . . . . . . . . . . . . 52

Formula for Misclassification Rate

. . . . . . . . . . . . . . . . . . . . 52

Formula for Average Square Error and Gini

. . . . . . . . . . . . . . . . 52

Formula for Lift

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Performance Considerations

. . . . . . . . . . . . . . . . . . . . . . . . . . 53

Passes Over the Data

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Memory Considerations

. . . . . . . . . . . . . . . . . . . . . . . . . . 54

IMPORTANCE= Output Data Set

. . . . . . . . . . . . . . . . . . . . . . . 54

Variable Importance

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Variables in the Data Set

. . . . . . . . . . . . . . . . . . . . . . . . . . 55

NODESTATS= Output Data Set

. . . . . . . . . . . . . . . . . . . . . . . . 56

PATH= Output Data Set

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

RULES= Output Data Set

. . . . . . . . . . . . . . . . . . . . . . . . . . . 58

SCORE Statement OUT= Output Data Set

. . . . . . . . . . . . . . . . . . 59

Variable Names and Conditions for Their Creation

. . . . . . . . . . . . 59

Decision Variables

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Leaf Assignment Variables

. . . . . . . . . . . . . . . . . . . . . . . . . 60

SEQUENCE= Output Data Set

. . . . . . . . . . . . . . . . . . . . . . . . 61

EXAMPLES

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Example 1. Prior Probabilities with Biased Samples

. . . . . . . . . . . . . 61

Incorporating Prior Probabilities in the Tree Assessment

. . . . . . . . . 66

Incorporating Prior Probabilities in the Split Search

. . . . . . . . . . . 67

REFERENCES

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

SUBJECT INDEX

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

SYNTAX INDEX

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73





Dostları ilə paylaş:
  1   2   3   4   5   6   7   8   9   ...   148


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2017
rəhbərliyinə müraciət

    Ana səhifə