The ARBORETUM Procedure
Contents
OVERVIEW
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Terminology
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Basic Features
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
Enterprise Miner Tree Desktop Application
. . . . . . . . . . . . . . . . . .
8
GETTING STARTED
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
Running the ARBORETUM Procedure
. . . . . . . . . . . . . . . . . . . .
8
A Brief Example
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Selecting a Subtree
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Changing a Splitting Rule
. . . . . . . . . . . . . . . . . . . . . . . . . . . 14
SYNTAX
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
PROC ARBORETUM Statement
. . . . . . . . . . . . . . . . . . . . . . . 16
ASSESS Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
BRANCH Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
CODE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
DECISION Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
DESCRIBE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
FREQ Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
INPUT Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
INTERACT Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
MAKEMACRO Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . 27
PERFORMANCE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . 27
PRUNE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
REDO Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
SAVE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
SCORE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
SEARCH Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
SETRULE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
SPLIT Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
SUBTREE Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
TARGET Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
TRAIN Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
UNDO Statement
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
DETAILS
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Form of a Splitting Rule
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2
The ARBORETUM Procedure
Posterior and Within Node Probabilities
. . . . . . . . . . . . . . . . . . . 36
Incorporating Prior Probabilities
. . . . . . . . . . . . . . . . . . . . . . 37
Incorporating Decisions, Profit, and Loss
. . . . . . . . . . . . . . . . . 38
Splitting Criteria
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Reduction in Node Impurity
. . . . . . . . . . . . . . . . . . . . . . . . 39
Statistical Tests and p-Values
. . . . . . . . . . . . . . . . . . . . . . . 40
Distributional Assumptions
. . . . . . . . . . . . . . . . . . . . . . . . 40
Multiple Testing Assumptions
. . . . . . . . . . . . . . . . . . . . . . . 41
Adjusting p-Values for Multiple Tests
. . . . . . . . . . . . . . . . . . . 42
Adjusting p-Values for the Number of Input Values and Branches
. . . . 43
Adjusting p-Values for the Depth of the Node
. . . . . . . . . . . . . . . 44
Adjusting p-Values for the Number of Input Variables
. . . . . . . . . . 44
Splitting Criteria for an Ordinal Target
. . . . . . . . . . . . . . . . . . 44
Missing Values
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Unseen Categorical Values
. . . . . . . . . . . . . . . . . . . . . . . . . . 46
Within Node Training Sample
. . . . . . . . . . . . . . . . . . . . . . . . . 46
Split Search Algorithm
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Surrogate Splitting Rules
. . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Tree Assessment and the Subtree Sequence
. . . . . . . . . . . . . . . . . . 49
Retrospective Pruning
. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Formulas for Assessment Measures
. . . . . . . . . . . . . . . . . . . . 50
Formula for Profit and Loss
. . . . . . . . . . . . . . . . . . . . . . . . 52
Formula for Misclassification Rate
. . . . . . . . . . . . . . . . . . . . 52
Formula for Average Square Error and Gini
. . . . . . . . . . . . . . . . 52
Formula for Lift
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Performance Considerations
. . . . . . . . . . . . . . . . . . . . . . . . . . 53
Passes Over the Data
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Memory Considerations
. . . . . . . . . . . . . . . . . . . . . . . . . . 54
IMPORTANCE= Output Data Set
. . . . . . . . . . . . . . . . . . . . . . . 54
Variable Importance
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Variables in the Data Set
. . . . . . . . . . . . . . . . . . . . . . . . . . 55
NODESTATS= Output Data Set
. . . . . . . . . . . . . . . . . . . . . . . . 56
PATH= Output Data Set
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
RULES= Output Data Set
. . . . . . . . . . . . . . . . . . . . . . . . . . . 58
SCORE Statement OUT= Output Data Set
. . . . . . . . . . . . . . . . . . 59
Variable Names and Conditions for Their Creation
. . . . . . . . . . . . 59
Decision Variables
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Leaf Assignment Variables
. . . . . . . . . . . . . . . . . . . . . . . . . 60
SEQUENCE= Output Data Set
. . . . . . . . . . . . . . . . . . . . . . . . 61
EXAMPLES
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Example 1. Prior Probabilities with Biased Samples
. . . . . . . . . . . . . 61
Incorporating Prior Probabilities in the Tree Assessment
. . . . . . . . . 66
Incorporating Prior Probabilities in the Split Search
. . . . . . . . . . . 67
REFERENCES
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
SUBJECT INDEX
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
SYNTAX INDEX
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73