DATA
MINING
Data Mining adalah kegiatan untuk menemukan
informasi atau pengetahuan yang berguna secara otomatis dari data yang
jumlahnya besar.
Data Mining merupakan salah satu proses dari
keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD).
KDD
Knowledge Discovery in Databases (KDD) merupakan sekumpulan proses
untuk menemukan pengetahuan yang bermanfaat dari data.
Kumpulan proses dalam KDD meliputi
: pembersihan data (data cleaning), integrasi data (data integration),
pemilihan data (data selection), transformasi data (data
transformation), penambangan data (data mining), evaluasi pola (pattern
evaluation), dan presentasi pengetahuan (knowledge presentation).
Berdasarkan definisi ini terlihat
bahwa data mining hanya merupakan salah satu proses dari keseluruhan
proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam menemukan
pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa
disimpan dalam basisdata, Data Warehouse, atau media penyimpanan
informasi lainnya).
TAHAPAN
KNOWLEDGE DISCOVERY IN DATABASE
Menurut Peter Cabena, Tahapan – tahapan dalam KDD adalah sebagai berikut :
- Penentuan Sasaran Bisnis (Business Objective Determination)
- Persiapan Data (Preparation Data)
Data Selection
Data Preprocessing
Data Transformation
- Data Mining
- Anaysis of Result
- Assimilation of Knowledge
Business
Objective Determination
Merupakan sebuah tahapan yang
mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini
merupakan aspek yang sangat esensial dalam setiap proyek data mining.
Contoh Sasaran Bisnis :
Mengembangkan
suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah
dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml
dalam kotak alumunium) selama bulan April, Mei , Juni yang akan datang.
Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed
marketing), yang salah satunya adalah direct mail campaign kepada
customer yang tampaknya "mudah rusak" loyalitasnya.
Sehingga dampak keseluruhan KDD
adalah :
– Data Selection: dipilih
customers yang membeli produk soft drink 200 ml dalam kotak alumunium di Jawa
Tengah dan Jawa Timur.
– Data Transformation: customers
yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10
kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk
tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya
data inilah yang akan dibawa ke tahap data mining.
Persiapan
Data (Preparation Data)
Merupakan tahapan untuk
mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya
adalah agar data yang digunakan benar-benar sesuai dengan permasalahan yang
akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang
sesuai/tepat.Tahap yang paling banyak
mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai
60% keseluruhan proyek KDD.
Data Selection
Mengidentifikasi semua sumber
informasi internal dan eksternal dan memilih sebagian saja dari data yang
diperlukan untuk aplikasi data mining.
Data Preprocessing
Meyakinkan kualitas data yang telah
dipilih pada tahapan sebelumnya. 2 issue yang sering dihadapkan pada tahapan
ini adalah Noisy Data dan Missing Value.
Data Transformation
Mengubah data ke dalam model
analitis serta memodelkan data agar sesuai dengan analisa yang diharapkan dan
format data yang diperlukan oleh algoritma data mining.
Data
Mining
Melakukan proses pencarian
pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya.
Contoh Pengetahuan berbentuk Association
Rule untuk kasus "Soft Drink“: IF soft drink sejenis dengan ukuran yang lebih
besar (bukan botol kecil) dibeli lebih
dari 58% dalam sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi
Loyal. Pemilihan tugas data mining :
pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. Proses Data mining yaitu proses mencari pola atau
informasi menarik dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan.
Anaysis
of Result
Menginterpretasikan dan
mengevaluasi output dari tahap mining: patterns. Pendekatan analisa yang digunakan
akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya
akan melibatkan teknik visualisasi.
Assimilation
of Knowledge
Menggunakan hasil mining yang telah
dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan.
DATA
MINING dan PROSES KDD
Pembersihan data (Data Cleaning)
Digunakan untuk membuang data yang
tidak konsisten dan noise.
Intergrasi Data (Data Integration)
Data yang diperlukan untuk data
mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa
database atau file teks. Hasil integrasi data sering diwujudkan dalam sebuah
data warehouse karena dengan data warehouse, data dikonsolidasikan dengan
struktur khusus yang efisien. Selain itu data warehouse juga memungkinkan tipe
analisa seperti OLAP.
Transformasi data
Transformasi dan pemilihan data ini
untuk menentukan kualitas dari hasil data mining, sehingga data diubah menjadi
bentuk sesuai untuk di-Mining.
Aplikasi Teknik Data Mining
Aplikasi teknik data mining sendiri
hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik
data mining yang sudah umum dipakai.
Evaluasi pola yang ditemukan
Dalam tahap ini hasil dari teknik
data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk
menilai apakah hipotesa yang ada memang tercapai.
Presentasi Pengetahuan
Presentasi pola yang ditemukan
untuk menghasilkan aksi tahap terakhir dari proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari hasil analisa yang didapat.
sumber :
http://mfile.narotama.ac.id/files/Tubagus%20Purworusmiadi/Kumpulan%20File%20PDF/dmkdd02-2up-bw.pdf