Data Mining. Concepts and Techniques, 3rd Edition


HAN 08-ch01-001-038-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə27/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   23   24   25   26   27   28   29   30   ...   343

HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 33

#33

1.8 Summary



33

Invisible data mining: We cannot expect everyone in society to learn and master

data mining techniques. More and more systems should have data mining func-

tions built within so that people can perform data mining or use data mining results

simply by mouse clicking, without any knowledge of data mining algorithms. Intelli-

gent search engines and Internet-based stores perform such invisible data mining by

incorporating data mining into their components to improve their functionality and

performance. This is done often unbeknownst to the user. For example, when pur-

chasing items online, users may be unaware that the store is likely collecting data on

the buying patterns of its customers, which may be used to recommend other items

for purchase in the future.

These issues and many additional ones relating to the research, development, and

application of data mining are discussed throughout the book.

1.8

Summary

Necessity is the mother of invention. With the mounting growth of data in every appli-

cation, data mining meets the imminent need for effective, scalable, and flexible data

analysis in our society. Data mining can be considered as a natural evolution of infor-

mation technology and a confluence of several related disciplines and application

domains.

Data mining is the process of discovering interesting patterns from massive amounts

of data. As a knowledge discovery process, it typically involves data cleaning, data inte-

gration, data selection, data transformation, pattern discovery, pattern evaluation,

and knowledge presentation.

A pattern is interesting if it is valid on test data with some degree of certainty, novel,

potentially useful (e.g., can be acted on or validates a hunch about which the user was

curious), and easily understood by humans. Interesting patterns represent knowl-

edge. Measures of pattern interestingness, either objective or subjective, can be used

to guide the discovery process.

We present a multidimensional view of data mining. The major dimensions are

dataknowledgetechnologies, and applications.

Data mining can be conducted on any kind of data as long as the data are meaningful

for a target application, such as database data, data warehouse data, transactional

data, and advanced data types. Advanced data types include time-related or sequence

data, data streams, spatial and spatiotemporal data, text and multimedia data, graph

and networked data, and Web data.

data warehouse is a repository for long-term storage of data from multiple sources,

organized so as to facilitate management decision making. The data are stored

under a unified schema and are typically summarized. Data warehouse systems pro-

vide multidimensional data analysis capabilities, collectively referred to as online



analytical processing.


HAN

08-ch01-001-038-9780123814791

2011/6/1

3:12

Page 34

#34

34

Chapter 1 Introduction



Multidimensional data mining (also called exploratory multidimensional data

mining) integrates core data mining techniques with OLAP-based multidimen-

sional analysis. It searches for interesting patterns among multiple combinations

of dimensions (attributes) at varying levels of abstraction, thereby exploring multi-

dimensional data space.



Data mining functionalities are used to specify the kinds of patterns or knowledge

to be found in data mining tasks. The functionalities include characterization and

discrimination; the mining of frequent patterns, associations, and correlations; clas-

sification and regression; cluster analysis; and outlier detection. As new types of data,

new applications, and new analysis demands continue to emerge, there is no doubt

we will see more and more novel data mining tasks in the future.

Data mining, as a highly application-driven domain, has incorporated technologies

from many other domains. These include statistics, machine learning, database and

data warehouse systems, and information retrieval. The interdisciplinary nature of

data mining research and development contributes significantly to the success of

data mining and its extensive applications.

Data mining has many successful applications, such as business intelligence, Web

search, bioinformatics, health informatics, finance, digital libraries, and digital

governments.

There are many challenging issues in data mining research. Areas include mining

methodology, user interaction, efficiency and scalability, and dealing with diverse

data types. Data mining research has strongly impacted society and will continue to

do so in the future.

1.9


Exercises

1.1 What is data mining? In your answer, address the following:

(a) Is it another hype?

(b) Is it a simple transformation or application of technology developed from databases,

statisticsmachine learning, and pattern recognition?

(c) We have presented a view that data mining is the result of the evolution of database



technology. Do you think that data mining is also the result of the evolution of

machine learning research? Can you present such views based on the historical

progress of this discipline? Address the same for the fields of statistics and pattern



recognition.

(d) Describe the steps involved in data mining when viewed as a process of knowledge

discovery.

1.2 How is a data warehouse different from a database? How are they similar?

1.3 Define each of the following data mining functionalities: characterization, discrimi-

nation, association and correlation analysis, classification, regression, clustering, and




Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   23   24   25   26   27   28   29   30   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə