Data Mining. Concepts and Techniques, 3rd Edition


HAN 10-ch03-083-124-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə63/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   59   60   61   62   63   64   65   66   ...   343

HAN

10-ch03-083-124-9780123814791

2011/6/1

3:16

Page 112

#30

112

Chapter 3 Data Preprocessing

3.5.1

Data Transformation Strategies Overview

In data transformation, the data are transformed or consolidated into forms appropriate

for mining. Strategies for data transformation include the following:

1.

Smoothing, which works to remove noise from the data. Techniques include binning,

regression, and clustering.



2.

Attribute construction (or feature construction), where new attributes are con-

structed and added from the given set of attributes to help the mining process.



3.

Aggregation, where summary or aggregation operations are applied to the data. For

example, the daily sales data may be aggregated so as to compute monthly and annual

total amounts. This step is typically used in constructing a data cube for data analysis

at multiple abstraction levels.



4.

Normalization, where the attribute data are scaled so as to fall within a smaller range,

such as −1.0 to 1.0, or 0.0 to 1.0.



5.

Discretization, where the raw values of a numeric attribute (e.g., age) are replaced by

interval labels (e.g., 0–10, 11–20, etc.) or conceptual labels (e.g., youth, adultsenior).

The labels, in turn, can be recursively organized into higher-level concepts, resulting

in a concept hierarchy for the numeric attribute. Figure 3.12 shows a concept hierarchy

for the attribute price. More than one concept hierarchy can be defined for the same

attribute to accommodate the needs of various users.



6.

Concept hierarchy generation for nominal data, where attributes such as street can

be generalized to higher-level concepts, like city or country. Many hierarchies for

nominal attributes are implicit within the database schema and can be automatically

defined at the schema definition level.

Recall that there is much overlap between the major data preprocessing tasks. The first

three of these strategies were discussed earlier in this chapter. Smoothing is a form of

($600...$800]

($800...$1000]

($400...$600]

($200...$400]

($0...$200]

($0...$1000]

($900...

$1000]


($800...

$900]


($700...

$800]


($600...

$700]


($500...

$600]


($100...

$200]


($400...

$500]


($0...

$100]


($200...

$300]


($300...

$400]


Figure 3.12

A concept hierarchy for the attribute price, where an interval

($...$Y] denotes the range

from $(exclusive) to $(inclusive).




HAN

10-ch03-083-124-9780123814791

2011/6/1

3:16

Page 113

#31

3.5 Data Transformation and Data Discretization



113

data cleaning and was addressed in Section 3.2.2. Section 3.2.3 on the data cleaning

process also discussed ETL tools, where users specify transformations to correct data

inconsistencies. Attribute construction and aggregation were discussed in Section 3.4

on data reduction. In this section, we therefore concentrate on the latter three strategies.

Discretization techniques can be categorized based on how the discretization is per-

formed, such as whether it uses class information or which direction it proceeds (i.e.,

top-down vs. bottom-up). If the discretization process uses class information, then we

say it is supervised discretization. Otherwise, it is unsupervised. If the process starts by first

finding one or a few points (called split points or cut points) to split the entire attribute

range, and then repeats this recursively on the resulting intervals, it is called top-down

discretization or splitting. This contrasts with bottom-up discretization or merging, which

starts by considering all of the continuous values as potential split-points, removes some

by merging neighborhood values to form intervals, and then recursively applies this

process to the resulting intervals.

Data discretization and concept hierarchy generation are also forms of data reduc-

tion. The raw data are replaced by a smaller number of interval or concept labels. This

simplifies the original data and makes the mining more efficient. The resulting patterns

mined are typically easier to understand. Concept hierarchies are also useful for mining

at multiple abstraction levels.

The rest of this section is organized as follows. First, normalization techniques are

presented in Section 3.5.2. We then describe several techniques for data discretization,

each of which can be used to generate concept hierarchies for numeric attributes. The

techniques include binning (Section 3.5.3) and histogram analysis (Section 3.5.4), as

well as cluster analysisdecision tree analysis, and correlation analysis (Section 3.5.5).

Finally, Section 3.5.6 describes the automatic generation of concept hierarchies for

nominal data.

3.5.2

Data Transformation by Normalization

The measurement unit used can affect the data analysis. For example, changing mea-

surement units from meters to inches for height, or from kilograms to pounds for weight,

may lead to very different results. In general, expressing an attribute in smaller units will

lead to a larger range for that attribute, and thus tend to give such an attribute greater

effect or “weight.” To help avoid dependence on the choice of measurement units, the

data should be normalized or standardized. This involves transforming the data to fall

within a smaller or common range such as [−1, 1] or [0.0, 1.0]. (The terms standardize

and normalize are used interchangeably in data preprocessing, although in statistics, the

latter term also has other connotations.)

Normalizing the data attempts to give all attributes an equal weight. Normaliza-

tion is particularly useful for classification algorithms involving neural networks or

distance measurements such as nearest-neighbor classification and clustering. If using

the neural network backpropagation algorithm for classification mining (Chapter 9),

normalizing the input values for each attribute measured in the training tuples will help

speed up the learning phase. For distance-based methods, normalization helps prevent




Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   59   60   61   62   63   64   65   66   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə