Assosiation Rule
Assosiation Rule adalah adalah suatu teknik dalam data mining untuk menemukan pattern (pola) dari suatu kumpulan data (database) berdasarkan pola frekusensi, assosiasi dan korelasi dari kombinasi item-item dalam data tersebut. Pola yang tersembunyi dalam data tersebut dapat diketahui sehingga dapat memberikan informasi yang sangat bermanfaat dalam pengembangan usaha bisnis yang sedang dijalani.
Assosiation Rule adalah suatu bentuk pola jika “kejadian sebelumnya” kemudian “konsekuensinya” (IF antecedent, THEN consequent). Secara umum dapat dapat ditulis :
Dimana X dan Y merupakan himpunan bagian dari data set tersebut. Selain itu X dan Y saling disjoin atau dapat ditulis :
X disebut anteseden (antecedent) dan Y disebut konsekuen (consequent).
Penting tidaknya suatu aturan assosiatif (association rule) dapat diketahui dengan dua parameter, yaitu support dan confidence. Support (nilai penunjang) yaitu persentase kombinasi item dalam database tersebut atau persentase dari transaksi dalam database yang mengandung item X dan Y. Confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif atau persentase transaksi dalam database yang mengandung item X dan Y pada transaksi yang memuat X.
Rumus support dan confidence:
Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada pada rule tersebut.
Sedangkan kegunaan dari confidence adalah untuk mengukur tingkat kebenaran(reability) dari kesimpulan yang diambil oleh rule yang dibuat. Jika nilai confidence rendah maka kemungkinan munculnya Y yang memuat X semakin rendah pula.
Analisis asosiatif didefenisikan sebagai suatu proses untuk menemukan semua aturan asosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).
Aturan assosiatif biasanya dinyatakan dalam bentuk :
{roti,mentega} → {susu} (support = 40%, confidence = 50%)
Yang artinya : “50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu”. Dapat juga diartikan : “Seseorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”
Beberpa aplikasi dari association rule yang telah diterapkan dibagi dalam 3 kategori :
Association Discovery (Market Basket Analysis)
Menganilis barang-barang yang dibeli secara bersamaan pada suatu transaksi, sehingga ditemukan hubungan yang mungkin tersembunyi diantar barang-barang tersebut. Contohnnya : seberapa sering seorang costumer membeli roti bersamaan denga susu.
Sequential Pattern Discovery
Mengidentifikasi hubungan antara transaksi pembelian barang dari waktu ke waktu untuk mendapatkan informasi mengenai urutan barang yang dibeli costumer. Tujuannya adalah mengenali kebiasaan costumer dalam jangka waktu tertentu. Contohnya : customer yang membeli Pentium PC sembilan bulan yang lalu cenderung untuk memesan CPU baru dalam satu bulan ini.
Similar Time Sequence Discovery
Menemukan hubungan antara dua kelompok data yang bergantung pada waktu, berdasarkan tingkat kemiripan pola yang ditunjukkan data tersebut. Tujuannya mencari kemunculan semua sequence yang mirip dengan sequence yang diberikan, dalam time-series database.
Untuk menemukan semua association rule yang terdapat dalam suatu database perlu dilakukan dua proses tahapan utama, yaitu :
Tahapan Pencarian Large Itemset
Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Itemset yang memenuhi persyaratan ini disebut frequent itemset (large itemset) dan sebaliknya yang tidak memenuhi persyaratan disebut infrequent itemset (small itemset).
Tahapan Pemebentukan Strong Assosiation Rule
Dengan menggunkan frequent itemset yang terbentuk dihasilkan (strong) association rule yang memenuhi minimum confidence yang telah ditetapkan.
Contoh perhitungan :
Contoh database transaksi pada sebuah swalayan :
Id Transaksi | Items |
T1 | HotDogs, Buns, Ketchup |
T2 | HotDogs, Buns |
T3 | HotDogs, Coke, Chips |
T4 | Chips, Coke |
T5 | Chips, Ketchup |
T6 | HotDogs, Coke, Chips |
Diberikan nilai support minimum (s) = 33.34% dan nilai confidence minimum (c) = 60%.
Kandidat 1-itemset (C1) dan nilai supportnya :
Itemset | Support |
HotDogs | 66.67% |
Buns | 33.33% |
Ketchup | 33.33% |
Coke | 50% |
Chips | 66.67% |
Himpunan Large 1-itemset (L1)
Itemset | Support |
HotDogs | 66.67% |
Coke | 50% |
Chips | 66.67% |
Kandidat 2-itemset (C2) dan nilai supportnya :
Itemset | Support |
HotDogs, Coke | 50% |
HotDogs, Chips | 50% |
Chips, Coke | 75% |
Himpunan Large 2-itemset (L2)
Itemset | Support | Confidence |
HotDogs, Coke | 50% | 100% |
HotDogs, Chips | 50% | 100% |
Chips, Coke | 75% | 75% |
Kandidat 3-itemset (C3) dan nilai supportnya :
Items | Support |
HotDogs, Coke, Chips | 100% |
Rule dari kandidat 3-itemset (C3) dan nilai confidennya :
Rule | Confidnece |
HotDogs Coke, Chips | 33.33% |
Coke HotDogs, Chips | 66.67% |
Chips HotDogs, Coke | 50% |
HotDogs, Coke Chips | 100% |
HotDogs, Chips Coke | 100% |
Coke, Chips HotDogs | 66.67% |
Rule yang memenuhi syarat minimum support dan minimum confidence adalah :
Rule | Support | Confidence |
Coke HotDogs, Chips | 50% | 66.67% |
HotDogs, Coke Chips | 50% | 100% |
HotDogs, Chips Coke | 50% | 100% |
Chips, Coke HotDogs | 75% | 66.67% |