Data Mining. Concepts and Techniques, 3rd Edition


HAN 08-ch01-001-038-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə19/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   15   16   17   18   19   20   21   22   ...   343

HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 16

#16

16

Chapter 1 Introduction

There are several methods for effective data summarization and characterization.

Simple data summaries based on statistical measures and plots are described in

Chapter 2. The data cube-based OLAP roll-up operation (Section 1.3.2) can be used

to perform user-controlled data summarization along a specified dimension. This pro-

cess is further detailed in Chapters 4 and 5, which discuss data warehousing. An

attribute-oriented induction technique can be used to perform data generalization and

characterization without step-by-step user interaction. This technique is also described

in Chapter 4.

The output of data characterization can be presented in various forms. Examples

include pie chartsbar chartscurvesmultidimensional data cubes, and multidimen-

sional tables, including crosstabs. The resulting descriptions can also be presented as

generalized relations or in rule form (called characteristic rules).

Example 1.5

Data characterization. A customer relationship manager at AllElectronics may order the

following data mining task: Summarize the characteristics of customers who spend more



than $5000 a year at AllElectronics. The result is a general profile of these customers,

such as that they are 40 to 50 years old, employed, and have excellent credit ratings. The

data mining system should allow the customer relationship manager to drill down on

any dimension, such as on occupation to view these customers according to their type of

employment.

Data discrimination is a comparison of the general features of the target class data

objects against the general features of objects from one or multiple contrasting classes.

The target and contrasting classes can be specified by a user, and the corresponding

data objects can be retrieved through database queries. For example, a user may want to

compare the general features of software products with sales that increased by 10% last

year against those with sales that decreased by at least 30% during the same period. The

methods used for data discrimination are similar to those used for data characterization.

“How are discrimination descriptions output?” The forms of output presentation

are similar to those for characteristic descriptions, although discrimination descrip-

tions should include comparative measures that help to distinguish between the target

and contrasting classes. Discrimination descriptions expressed in the form of rules are

referred to as discriminant rules.

Example 1.6

Data discrimination. A customer relationship manager at AllElectronics may want to

compare two groups of customers—those who shop for computer products regularly

(e.g., more than twice a month) and those who rarely shop for such products (e.g.,

less than three times a year). The resulting description provides a general comparative

profile of these customers, such as that 80% of the customers who frequently purchase

computer products are between 20 and 40 years old and have a university education,

whereas 60% of the customers who infrequently buy such products are either seniors or

youths, and have no university degree. Drilling down on a dimension like occupation,

or adding a new dimension like income level, may help to find even more discriminative

features between the two classes.




HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 17

#17

1.4 What Kinds of Patterns Can Be Mined?



17

Concept description, including characterization and discrimination, is described in

Chapter 4.

1.4.2


Mining Frequent Patterns, Associations, and Correlations

Frequent patterns, as the name suggests, are patterns that occur frequently in data.

There are many kinds of frequent patterns, including frequent itemsets, frequent sub-

sequences (also known as sequential patterns), and frequent substructures. A frequent

itemset typically refers to a set of items that often appear together in a transactional

data set—for example, milk and bread, which are frequently bought together in gro-

cery stores by many customers. A frequently occurring subsequence, such as the pattern

that customers, tend to purchase first a laptop, followed by a digital camera, and then

a memory card, is a (frequentsequential pattern. A substructure can refer to different

structural forms (e.g., graphs, trees, or lattices) that may be combined with itemsets

or subsequences. If a substructure occurs frequently, it is called a (frequentstructured

pattern. Mining frequent patterns leads to the discovery of interesting associations and

correlations within data.



Example 1.7

Association analysis. Suppose that, as a marketing manager at AllElectronics, you want

to know which items are frequently purchased together (i.e., within the same transac-

tion). An example of such a rule, mined from the AllElectronics transactional database, is

buys

(X,“computer”) ⇒ buys(X,“software”) [support = 1%,confidence = 50%],

where is a variable representing a customer. A confidence, or certainty, of 50%

means that if a customer buys a computer, there is a 50% chance that she will buy

software as well. A 1% support means that 1% of all the transactions under analysis

show that computer and software are purchased together. This association rule involves

a single attribute or predicate (i.e., buys) that repeats. Association rules that contain a

single predicate are referred to as single-dimensional association rules. Dropping the

predicate notation, the rule can be written simply as “computer ⇒ software [1%, 50%].”

Suppose, instead, that we are given the AllElectronics relational database related to

purchases. A data mining system may find association rules like

age

(X, “20..29”) ∧ income(X, “40K..49K”) ⇒ buys(X, “laptop”)

[support = 2%confidence = 60%].

The rule indicates that of the AllElectronics customers under study, 2% are 20 to 29 years

old with an income of $40,000 to $49,000 and have purchased a laptop (computer)

at AllElectronics. There is a 60% probability that a customer in this age and income

group will purchase a laptop. Note that this is an association involving more than one

attribute or predicate (i.e., age, income, and buys). Adopting the terminology used in

multidimensional databases, where each attribute is referred to as a dimension, the

above rule can be referred to as a multidimensional association rule.




Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   15   16   17   18   19   20   21   22   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə