Mehedy Masud

Overview of Data Mining

Mehedy Masud

Lecture slides modified from:

Jiawei Han (http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html)

Vipin Kumar (http://www-users.cs.umn.edu/~kumar/csci5980/index.html)

Ad Feelders (http://www.cs.uu.nl/docs/vakken/adm/)

Zdravko Markov (http://www.cs.ccsu.edu/~markov/ccsu_courses/DataMining-1.html)

Outline

What Is Data Mining?

Data Mining Definition

Motivation:

Why Mine Data? Commercial Viewpoint

Why Mine Data? Scientific Viewpoint

Examples: What is (not) Data Mining?

Database Processing vs. Data Mining Processing

Query Examples

Data Mining: Classification Schemes

Decisions in Data Mining

Data Mining Tasks

Common data mining tasks
Classification [Predictive]

Clustering [Descriptive]

Association Rule Discovery [Descriptive]

Sequential Pattern Discovery [Descriptive]

Regression [Predictive]

Deviation Detection [Predictive]

Data Mining Models and Tasks

Classification

Classification: Definition

An Example

**(from Pattern Classification by Duda & Hart & Stork – Second Edition, 2001)**
A fish-packing plant wants to automate the process of sorting incoming fish according to species

As a pilot project, it is decided to try to separate sea bass from salmon using optical sensing

An Example (continued)

Length

Lightness

Width

Position of mouth

An Example (continued)

An Example (continued)

An Example (continued)

An Example (continued)

An Example (continued)

An Example (continued)

An Example (continued)

Terms

Terms

Classification Example 2

Classification: Application 1

Classification: Application 2

Classification: Application 3

Classification: Application 4

Classifying Galaxies

Clustering

Clustering Definition

Illustrating Clustering

Clustering: Application 1

Clustering: Application 2

Association rule mining

Association Rule Discovery: Definition

Association Rule Discovery: Application 1

{Bagels, … } --> {Potato Chips}
Potato Chips as consequent => Can be used to determine what should be done to boost its sales.

Bagels in the antecedent => Can be used to see which products would be affected if the store discontinues selling bagels.

Bagels in antecedent and Potato chips in consequent => Can be used to see what products should be sold with Bagels to promote sale of Potato chips!

Association Rule Discovery: Application 2

SOME Classification techniques

Bayes Theorem

Assign probabilities of hypotheses given a data value.

Bayes Theorem Example

Bayes Example(cont’d)

Bayes Example(cont’d)

Hypothesis Testing

Chi Squared Statistic

Regression

y = c0 + c1 x1 + … + cn xn
Find values to best fit the data

Linear Regression

Correlation

Similarity Measures

Similarity Measures

Distance Measures

Twenty Questions Game

Decision Trees

Decision Tree Example

Decision Trees

Decision Tree Algorithm

DT Advantages/Disadvantages

Neural Networks

Neural Networks

Neural Network Example

NN Node

NN Activation Functions

NN Activation Functions

NN Learning

Neural Networks

NN Advantages

NN Disadvantages

Dostları ilə paylaş:

Mehedy Masud

Overview of Data Mining

Mehedy Masud

Lecture slides modified from:

Jiawei Han (http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html)

Vipin Kumar (http://www-users.cs.umn.edu/~kumar/csci5980/index.html)

Ad Feelders (http://www.cs.uu.nl/docs/vakken/adm/)

Zdravko Markov (http://www.cs.ccsu.edu/~markov/ccsu_courses/DataMining-1.html)

Outline

Definition, motivation & application

Branches of data mining

Classification, clustering, Association rule mining

Some classification techniques

What Is Data Mining?

Data mining (knowledge discovery in databases):

Alternative names and their “inside stories”:

Data Mining Definition

Finding hidden information in a database

Fit data to a model

Similar terms

Motivation:

Data explosion problem

We are drowning in data, but starving for knowledge!

Solution: Data warehousing and data mining

Why Mine Data? Commercial Viewpoint

Lots of data is being collected and warehoused

Computers have become cheaper and more powerful

Competitive Pressure is Strong

Why Mine Data? Scientific Viewpoint

Data collected and stored at enormous speeds (GB/hour)

Traditional techniques infeasible for raw data

Data mining may help scientists

Examples: What is (not) Data Mining?

Database Processing vs. Data Mining Processing

Query

Query Examples

Database

Data Mining

Data Mining: Classification Schemes

Decisions in data mining

Data mining tasks

Decisions in Data Mining

Databases to be mined

Knowledge to be mined

Techniques utilized

Applications adapted

Data Mining Tasks

Prediction Tasks

Description Tasks

Common data mining tasks Classification [Predictive] Clustering [Descriptive] Association Rule Discovery [Descriptive] Sequential Pattern Discovery [Descriptive] Regression [Predictive] Deviation Detection [Predictive]

Data Mining Models and Tasks

Classification

Classification: Definition

Given a collection of records (training set )

Find a model for class attribute as a function of the values of other attributes.

Goal: previously unseen records should be assigned a class as accurately as possible.

An Example

(from Pattern Classification by Duda & Hart & Stork – Second Edition, 2001) A fish-packing plant wants to automate the process of sorting incoming fish according to species As a pilot project, it is decided to try to separate sea bass from salmon using optical sensing

A fish-packing plant wants to automate the process of sorting incoming fish according to species

As a pilot project, it is decided to try to separate sea bass from salmon using optical sensing

An Example (continued)

Features (to distinguish):

Length

Lightness

Width

Position of mouth

An Example (continued)

Preprocessing: Images of different fishes are isolated from one another and from background;

Feature extraction: The information of a single fish is then sent to a feature extractor, that measure certain “features” or “properties”;

Classification: The values of these features are passed to a classifier that evaluates the evidence presented, and build a model to discriminate between the two species

An Example (continued)

Domain knowledge:

Related feature: (or attribute)

Training the classifier:

An Example (continued)

Classification model (hypothesis):

Testing the model

An Example (continued)

So the overall classification process goes like this 

An Example (continued)

Common data mining tasks
Classification [Predictive]

Clustering [Descriptive]

Association Rule Discovery [Descriptive]

Sequential Pattern Discovery [Descriptive]

Regression [Predictive]

Deviation Detection [Predictive]

**(from Pattern Classification by Duda & Hart & Stork – Second Edition, 2001)**
A fish-packing plant wants to automate the process of sorting incoming fish according to species

As a pilot project, it is decided to try to separate sea bass from salmon using optical sensing

y = c0 + c1 x1 + … + cn xn
Find values to best fit the data