Data Mining. Concepts and Techniques, 3rd Edition


HAN 11-ch04-125-186-9780123814791



Yüklə 7,95 Mb.
Pdf görüntüsü
səhifə70/343
tarix08.10.2017
ölçüsü7,95 Mb.
#3817
1   ...   66   67   68   69   70   71   72   73   ...   343

HAN

11-ch04-125-186-9780123814791

2011/6/1

3:17

Page 126

#2

126

Chapter 4 Data Warehousing and Online Analytical Processing

systems and data warehouses (Section 4.1.2), then explain the need for using data ware-

houses for data analysis, rather than performing the analysis directly on traditional

databases (Section 4.1.3). This is followed by a presentation of data warehouse architec-

ture (Section 4.1.4). Next, we study three data warehouse models—an enterprise model,

a data mart, and a virtual warehouse (Section 4.1.5). Section 4.1.6 describes back-end

utilities for data warehousing, such as extraction, transformation, and loading. Finally,

Section 4.1.7 presents the metadata repository, which stores data about data.

4.1.1


What Is a Data Warehouse?

Data warehousing provides architectures and tools for business executives to system-

atically organize, understand, and use their data to make strategic decisions. Data

warehouse systems are valuable tools in today’s competitive, fast-evolving world. In the

last several years, many firms have spent millions of dollars in building enterprise-wide

data warehouses. Many people feel that with competition mounting in every industry,

data warehousing is the latest must-have marketing weapon—a way to retain customers

by learning more about their needs.



“Then, what exactly is a data warehouse?” Data warehouses have been defined in many

ways, making it difficult to formulate a rigorous definition. Loosely speaking, a data

warehouse refers to a data repository that is maintained separately from an organiza-

tion’s operational databases. Data warehouse systems allow for integration of a variety of

application systems. They support information processing by providing a solid platform

of consolidated historic data for analysis.

According to William H. Inmon, a leading architect in the construction of data

warehouse systems, “A data warehouse is a subject-oriented, integrated, time-variant,

and nonvolatile collection of data in support of management’s decision making pro-

cess” [Inm96]. This short but comprehensive definition presents the major features of

a data warehouse. The four keywords—subject-oriented, integrated, time-variant, and

nonvolatile—distinguish data warehouses from other data repository systems, such as

relational database systems, transaction processing systems, and file systems.

Let’s take a closer look at each of these key features.

Subject-oriented: A data warehouse is organized around major subjects such as cus-

tomer, supplier, product, and sales. Rather than concentrating on the day-to-day

operations and transaction processing of an organization, a data warehouse focuses

on the modeling and analysis of data for decision makers. Hence, data warehouses

typically provide a simple and concise view of particular subject issues by excluding

data that are not useful in the decision support process.



Integrated: A data warehouse is usually constructed by integrating multiple hetero-

geneous sources, such as relational databases, flat files, and online transaction

records. Data cleaning and data integration techniques are applied to ensure con-

sistency in naming conventions, encoding structures, attribute measures, and so on.




HAN

11-ch04-125-186-9780123814791

2011/6/1

3:17

Page 127

#3

4.1 Data Warehouse: Basic Concepts



127

Time-variant: Data are stored to provide information from an historic perspective

(e.g., the past 5–10 years). Every key structure in the data warehouse contains, either

implicitly or explicitly, a time element.

Nonvolatile: A data warehouse is always a physically separate store of data trans-

formed from the application data found in the operational environment. Due to

this separation, a data warehouse does not require transaction processing, recovery,

and concurrency control mechanisms. It usually requires only two operations in data

accessing: initial loading of data and access of data.

In sum, a data warehouse is a semantically consistent data store that serves as a

physical implementation of a decision support data model. It stores the information

an enterprise needs to make strategic decisions. A data warehouse is also often viewed

as an architecture, constructed by integrating data from multiple heterogeneous sources

to support structured and/or ad hoc queries, analytical reporting, and decision making.

Based on this information, we view data warehousing as the process of construct-

ing and using data warehouses. The construction of a data warehouse requires data

cleaning, data integration, and data consolidation. The utilization of a data warehouse

often necessitates a collection of decision support technologies. This allows “knowledge

workers” (e.g., managers, analysts, and executives) to use the warehouse to quickly and

conveniently obtain an overview of the data, and to make sound decisions based on

information in the warehouse. Some authors use the term data warehousing to refer

only to the process of data warehouse construction, while the term warehouse DBMS is

used to refer to the management and utilization of data warehouses. We will not make

this distinction here.

How are organizations using the information from data warehouses?” Many orga-

nizations use this information to support business decision-making activities, includ-

ing (1) increasing customer focus, which includes the analysis of customer buying

patterns (such as buying preference, buying time, budget cycles, and appetites for

spending); (2) repositioning products and managing product portfolios by compar-

ing the performance of sales by quarter, by year, and by geographic regions in order

to fine-tune production strategies; (3) analyzing operations and looking for sources of

profit; and (4) managing customer relationships, making environmental corrections,

and managing the cost of corporate assets.

Data warehousing is also very useful from the point of view of heterogeneous database



integration. Organizations typically collect diverse kinds of data and maintain large

databases from multiple, heterogeneous, autonomous, and distributed information

sources. It is highly desirable, yet challenging, to integrate such data and provide easy

and efficient access to it. Much effort has been spent in the database industry and

research community toward achieving this goal.

The traditional database approach to heterogeneous database integration is to build



wrappers and integrators (or mediators) on top of multiple, heterogeneous databases.

When a query is posed to a client site, a metadata dictionary is used to translate the

query into queries appropriate for the individual heterogeneous sites involved. These



Yüklə 7,95 Mb.

Dostları ilə paylaş:
1   ...   66   67   68   69   70   71   72   73   ...   343




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə