Data Mining. Concepts and Techniques, 3rd Edition


HAN 09-ch02-039-082-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə39/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   35   36   37   38   39   40   41   42   ...   343

HAN

09-ch02-039-082-9780123814791

2011/6/1

3:15

Page 58

#20

58

Chapter 2 Getting to Know Your Data



(a) Hilbert curve

(b) Gray code

(c) Z-curve

Figure 2.11

Some frequently used 2-D space-filling curves.

Dim 6

Dim 3


Dim 4

Dim 2


Dim 5

Dim 1


One data

record


(a)

Dim 1


Dim 2

Dim 3


Dim 4

Dim 5


Dim 6

(b)

Figure 2.12

The circle segment technique. (a) Representing a data record in circle segments. (b) Laying

out pixels in circle segments.

to fill the windows. A space-filling curve is a curve with a range that covers the entire



n-dimensional unit hypercube. Since the visualization windows are 2-D, we can use any

2-D space-filling curve. Figure 2.11 shows some frequently used 2-D space-filling curves.

Note that the windows do not have to be rectangular. For example, the circle segment

technique uses windows in the shape of segments of a circle, as illustrated in Figure 2.12.

This technique can ease the comparison of dimensions because the dimension windows

are located side by side and form a circle.

2.3.2


Geometric_Projection_Visualization_Techniques'>Geometric Projection Visualization Techniques

A drawback of pixel-oriented visualization techniques is that they cannot help us much

in understanding the distribution of data in a multidimensional space. For example, they

do not show whether there is a dense area in a multidimensional subspace. Geometric




HAN

09-ch02-039-082-9780123814791

2011/6/1

3:15

Page 59

#21

2.3 Data Visualization



59

0

10



20

30

40



50

60

70



80

0

10



20

30

40



50

60

70



80

X

Y

Figure 2.13

Visualization of a 2-D data set using a scatter plot. Source: www.cs.sfu.ca/jpei/publications/



rareevent-geoinformatica06.pdf .

projection techniques help users find interesting projections of multidimensional data

sets. The central challenge the geometric projection techniques try to address is how to

visualize a high-dimensional space on a 2-D display.

scatter plot displays 2-D data points using Cartesian coordinates. A third dimen-

sion can be added using different colors or shapes to represent different data points.

Figure 2.13 shows an example, where and are two spatial attributes and the third

dimension is represented by different shapes. Through this visualization, we can see that

points of types “+” and “×” tend to be colocated.

A 3-D scatter plot uses three axes in a Cartesian coordinate system. If it also uses

color, it can display up to 4-D data points (Figure 2.14).

For data sets with more than four dimensions, scatter plots are usually ineffective.

The scatter-plot matrix technique is a useful extension to the scatter plot. For an n-

dimensional data set, a scatter-plot matrix is an × grid of 2-D scatter plots that

provides a visualization of each dimension with every other dimension. Figure 2.15

shows an example, which visualizes the Iris data set. The data set consists of 450 sam-

ples from each of three species of Iris flowers. There are five dimensions in the data set:

length and width of sepal and petal, and species.

The scatter-plot matrix becomes less effective as the dimensionality increases.

Another popular technique, called parallel coordinates, can handle higher dimensional-

ity. To visualize n-dimensional data points, the parallel coordinates technique draws



equally spaced axes, one for each dimension, parallel to one of the display axes.


HAN

09-ch02-039-082-9780123814791

2011/6/1

3:15

Page 60

#22

60

Chapter 2 Getting to Know Your Data



Figure 2.14

Visualization of a 3-D data set using a scatter plot. Source: http://upload.wikimedia.org/



wikipedia/commons/c/c4/Scatter plot.jpg.

A data record is represented by a polygonal line that intersects each axis at the point

corresponding to the associated dimension value (Figure 2.16).

A major limitation of the parallel coordinates technique is that it cannot effec-

tively show a data set of many records. Even for a data set of several thousand records,

visual clutter and overlap often reduce the readability of the visualization and make the

patterns hard to find.

2.3.3


Icon-Based Visualization Techniques

Icon-based visualization techniques use small icons to represent multidimensional

data values. We look at two popular icon-based techniques: Chernoff faces and stick



figures.

Chernoff faces were introduced in 1973 by statistician Herman Chernoff. They dis-

play multidimensional data of up to 18 variables (or dimensions) as a cartoon human

face (Figure 2.17). Chernoff faces help reveal trends in the data. Components of the

face, such as the eyes, ears, mouth, and nose, represent values of the dimensions by their

shape, size, placement, and orientation. For example, dimensions can be mapped to the

following facial characteristics: eye size, eye spacing, nose length, nose width, mouth

curvature, mouth width, mouth openness, pupil size, eyebrow slant, eye eccentricity,

and head eccentricity.

Chernoff faces make use of the ability of the human mind to recognize small dif-

ferences in facial characteristics and to assimilate many facial characteristics at once.




Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   35   36   37   38   39   40   41   42   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə