Define data mining

Define data mining

Data is produced at a phenomenal rate

Objective: Fit data to a model

Objective: Fit Data to a Model

Query

Database

Classification maps data into predefined groups or classes

Summarization maps data into subsets with associated simple descriptions.

Example: Stock Market

Knowledge Discovery in Databases (KDD): process of finding useful information and patterns in data.

Data mining: the core of knowledge discovery process.

Selection:

Human Interaction

Multimedia Data

Privacy

Usefulness

Scalability

Statistical Basics

Point Estimate: estimate a population parameter.

Bias: Difference between expected value and actual value.

Jackknife Estimate: estimate of parameter is obtained by omitting one value from the set of observed values.

Obtain parameter estimates that maximize the probability that the sample data occurs for the specific model.

Coin toss five times: {H,H,H,H,T}

General likelihood formula:

Solves estimation with incomplete data.

Credit authorizations (hypotheses): h1=authorize purchase, h2 = authorize after further identification, h3=do not authorize, h4= do not authorize but contact police

Training Data:

Calculate P(xi|hj) and P(xi)

Chi-Squared

Determine similarity between two objects.

Measure dissimilarity between objects

Information Retrieval (IR): retrieving desired information from textual data.

Similarity: measure of how close a query is to a document.

Dostları ilə paylaş:

Define data mining

Define data mining

Define data mining

Data mining vs. databases

Basic data mining tasks

Data mining development

Data mining issues

Data is produced at a phenomenal rate

Data is produced at a phenomenal rate

Our ability to store has grown

Users expect more sophisticated information

How?

Objective: Fit data to a model

Objective: Fit data to a model

Potential Result: Higher-level meta information that may not be obvious when looking at raw data

Similar terms

Objective: Fit Data to a Model

Objective: Fit Data to a Model

Preferential Questions

Query

Query

Database

Database

Data Mining

Classification maps data into predefined groups or classes

Classification maps data into predefined groups or classes

Regression is used to map a data item to a real valued prediction variable.

Clustering groups similar data together into clusters.

Summarization maps data into subsets with associated simple descriptions.

Summarization maps data into subsets with associated simple descriptions.

Link Analysis uncovers relationships among data.

Example: Stock Market

Example: Stock Market

Predict future values

Determine similar patterns over time

Classify behavior

Knowledge Discovery in Databases (KDD): process of finding useful information and patterns in data.

Knowledge Discovery in Databases (KDD): process of finding useful information and patterns in data.

Data Mining: Use of algorithms to extract the information and patterns derived by the KDD process.

Data mining: the core of knowledge discovery process.

Selection:

Selection:

Preprocessing:

Transformation:

Data Mining:

Interpretation/Evaluation:

Potential User Applications:

Human Interaction

Human Interaction

Overfitting

Outliers

Interpretation

Visualization

Large Datasets

High Dimensionality

Multimedia Data

Multimedia Data

Missing Data

Irrelevant Data

Noisy Data

Changing Data

Integration

Application

Privacy

Privacy

Profiling

Unauthorized use

Usefulness

Usefulness

Return on Investment (ROI)

Accuracy

Space/Time

Scalability

Scalability

Real World Data

Updates

Ease of Use

Statistical Basics

Statistical Basics

Similarity Measures