Introduction to Data Mining

Dr. Thiyanga S. Talagala
Department of Statistics, Faculty of Applied Sciences
University of Sri Jayewardenepura, Sri Lanka

What is Data Mining?

The process of discovering interesting patterns and knowledge from massive amounts of data.

What makes a pattern interesting?

Apllications

Healthcare: Google Flue Trend (GFT) analysis project
Fraud Detection: Identifying fraudulent transactions by analyzing patterns
Retail: Understanding purchasing patterns to optimize product placement.
Telecommunication : Identifying customers likely to leave and targeting retention efforts (Churn Prediction)
Education: Student Performance Analysis by predicting student outcomes and identifying at-risk students.

Data Mining vs Knowledge Discovery from Data/ Knowledge Discovery in Databases (KDD)

Data mining is the core step in KDD process.

Steps in KDD

Data Preparation
- Data cleaning
- Data standardization
- Data integration
- Data transformation
- Data selection
Data Mining
Pattern/ Model Evaluation
Knowledge Presentation

Data transformation

Scaling data
Data reduction
Data discretization
Data aggregation

Advantages of data preprocessing

Improves data quality
Mask sensitive data
Improve completeness of data

Disadvantages

Time-consuming
Require specialized skills and knowledge
Data loss
High cost

Diversity of data types

Structured, Semi-structures, Unstructured data
Spatial, Temporal, Spatio-temporal
Stored vs streaming data

Data Mining Tasks

Data mining tasks are generally divided into two major categories:

Predictive tasks
Descriptive tasks

Statistics vs Data Mining

In-class demo

Data Mining, Data Science, Data Engineering

In-class demo