Data Mining. Concepts and Techniques, 3rd Edition


HAN 09-ch02-039-082-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə48/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   44   45   46   47   48   49   50   51   ...   343

HAN

09-ch02-039-082-9780123814791

2011/6/1

3:15

Page 79

#41

2.6 Exercises



79

2.5


Summary

Data sets are made up of data objects. A data object represents an entity. Data objects

are described by attributes. Attributes can be nominal, binary, ordinal, or numeric.

The values of a nominal (or categoricalattribute are symbols or names of things,

where each value represents some kind of category, code, or state.

Binary attributes are nominal attributes with only two possible states (such as 1 and

0 or true and false). If the two states are equally important, the attribute is symmetric;

otherwise it is asymmetric.

An ordinal attribute is an attribute with possible values that have a meaningful order

or ranking among them, but the magnitude between successive values is not known.

numeric attribute is quantitative (i.e., it is a measurable quantity) represented

in integer or real values. Numeric attribute types can be interval-scaled or ratio-

scaled. The values of an interval-scaled attribute are measured in fixed and equal

units. Ratio-scaled attributes are numeric attributes with an inherent zero-point.

Measurements are ratio-scaled in that we can speak of values as being an order of

magnitude larger than the unit of measurement.



Basic statistical descriptions provide the analytical foundation for data preprocess-

ing. The basic statistical measures for data summarization include mean, weighted



mean, median, and mode for measuring the central tendency of data; and range, quan-

tiles, quartiles, interquartile range, variance, and standard deviation for measuring the

dispersion of data. Graphical representations (e.g., boxplots, quantile plots, quantile–



quantile plots, histograms, and scatter plots) facilitate visual inspection of the data and

are thus useful for data preprocessing and mining.



Data visualization techniques may be pixel-oriented, geometric-based, icon-based, or

hierarchical. These methods apply to multidimensional relational data. Additional

techniques have been proposed for the visualization of complex data, such as text

and social networks.

Measures of object similarity and dissimilarity are used in data mining applications

such as clustering, outlier analysis, and nearest-neighbor classification. Such mea-

sures of proximity can be computed for each attribute type studied in this chapter,

or for combinations of such attributes. Examples include the Jaccard coefficient for

asymmetric binary attributes and EuclideanManhattanMinkowski, and supremum

distances for numeric attributes. For applications involving sparse numeric data vec-

tors, such as term-frequency vectors, the cosine measure and the Tanimoto coefficient

are often used in the assessment of similarity.

2.6


Exercises

2.1 Give three additional commonly used statistical measures that are not already illus-

trated in this chapter for the characterization of data dispersion. Discuss how they can

be computed efficiently in large databases.



HAN

09-ch02-039-082-9780123814791

2011/6/1

3:15

Page 80

#42

80

Chapter 2 Getting to Know Your Data



2.2 Suppose that the data for analysis includes the attribute age. The age values for the data

tuples are (in increasing order) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30,

33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.

(a) What is the mean of the data? What is the median?

(b) What is the mode of the data? Comment on the data’s modality (i.e., bimodal,

trimodal, etc.).

(c) What is the midrange of the data?

(d) Can you find (roughly) the first quartile (Q

1

) and the third quartile (Q



3

) of the data?

(e) Give the five-number summary of the data.

(f) Show a boxplot of the data.

(g) How is a quantile–quantile plot different from a quantile plot?

2.3 Suppose that the values for a given set of data are grouped into intervals. The intervals

and corresponding frequencies are as follows:



age

frequency

1–5


200

6–15


450

16–20


300

21–50


1500

51–80


700

81–110


44

Compute an approximate median value for the data.



2.4 Suppose that a hospital tested the age and body fat data for 18 randomly selected adults

with the following results:



age

23

23



27

27

39



41

47

49



50

%fat

9.5


26.5

7.8


17.8

31.4


25.9

27.4


27.2

31.2


age

52

54



54

56

57



58

58

60



61

%fat

34.6


42.5

28.8


33.4

30.2


34.1

32.9


41.2

35.7


(a) Calculate the mean, median, and standard deviation of age and %fat.

(b) Draw the boxplots for age and %fat.

(c) Draw a scatter plot and a q-q plot based on these two variables.

2.5 Briefly outline how to compute the dissimilarity between objects described by the

following:

(a) Nominal attributes

(b) Asymmetric binary attributes




Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   44   45   46   47   48   49   50   51   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə