Sabtu, Januari 10, 2009

Lanjutan Contoh . . .

Contoh 2

Menentukan tingkat kecerdasan seorang mahasiswa berdasarkan criteria Nilai IPK dan Nilai rata-rata NEM SMU orang tersebut.


  • asumsikan fuzzification dari Nilai IPK sbb :

jelek sekali : <>

jelek : 2.00 – 2.50

cukup : 2.50 – 3.00

baik : 3.00 – 3.50

baik sekali : > 3.50


  • asumsikan fuzzification dari Nilai rata-rata NEM SMU sbb :

jelek sekali : <>

jelek : 4.00 – 5.50

cukup : 5.50 – 7.00

baik : 7.00 – 8.50

baik sekali : > 8.50


  • rumuskan fuzzification tingkat kecerdasan kedalam 5 kategori sbb :

        • excellent (E)

        • very good (VG)

        • good (G)

        • fair (F)

        • poor (P)


  • Rules of fuzzy table

Nilai rata-rata NEM SMU

Nilai IPK

Jelek sekali

Jelek

Cukup

Baik

Baik Sekali

Jelek sekali

P

P

F

F

G

Jelek

P

F

F

G

G

Cukup

F

F

G

VG

VG

Baik

F

G

VG

VG

E

Baik sekali

G

G

VG

E

E
















  • diambil sampel seorang mahasiswa yang mempunyai :

Nilai rata-rata NEM SMU : 8.25

Nilai IPK : 3.15


berdasarkan criteria di atas, data disubsitusikan ke dalam tabel sehingga :


Nilai rata-rata NEM SMU

Nilai IPK

Jelek sekali

Jelek

Cukup

Baik

Baik Sekali

Jelek sekali

P

P

F

F

G

Jelek

P

F

F

G

G

Cukup

F

F

G

VG

VG

Baik

F

G

VG

8.25 / 3.15

E

Baik sekali

G

G

VG

E

E


Dengan mencocokkan posisi kedua tabel dapat disimpulkan bahwa mahasiswa tersebut Very Good (VG)


Contoh Aplikasi Fuzzy Sistem

Contoh 1

Menentukan tingkat kesehatan seseorang berdasarkan criteria tinggi dan berat badan orang tersebut.


  • asumsikan fuzzification dari tinggi badan sbb :

pendek sekali : < 145 cm

pendek : 145 – 155 cm

sedang : 155 – 165 cm

tinggi : 165 – 175 cm

tinggi sekali : > 175 cm


  • asumsikan fuzzification dari berat badan sbb :

kurus sekali : < 40 cm

kurus : 40 – 50 kg

sedang : 50 – 70 kg

gemuk : 70 – 85 kg

gemuk sekali : > 85 kg


  • rumuskan fuzzification tingkat kesehatan kedalam 4 kategori sbb :

        • sehat (H)

        • sedang (SH)

        • kurang sehat (LH)

        • tidak sehat (U)


  • Rules of fuzzy table

Berat

Tinggi

Kurus sekali

Kurus

Sedang

Gemuk

Gemuk Sekali

Pendek sekali

H

SH

LH

U

U

Pendek

SH

H

SH

LH

U

Sedang

LH

H

H

LH

U

Tinggi

U

SH

H

SH

U

Tinggi sekali

U

LH

H

SH

LH



  • diambil sampel seseorang yang mempunyai :

tinggi badan : 168 cm

berat badan : 52 kg


berdasarkan criteria di atas, data disubsitusikan ke dalam tabel sehingga :


Berat

Tinggi

Kurus Sekali

Kurus

Sedang

Gemuk

Gemuk Sekali

Pendek sekali

H

SH

LH

U

U

Pendek

SH

H

SH

LH

U

Sedang

LH

H

H

LH

U

Tinggi

U

SH

52 kg / 168 cm

SH

U

Tinggi sekali

U

LH

H

SH

LH


Dengan mencocokkan posisi kedua tabel dapat disimpulkan bahwa orang tersebut dalam kondisi sehat (H)

Tugas 2 Data Mining

Assosiation Rule


Assosiation Rule adalah adalah suatu teknik dalam data mining untuk menemukan pattern (pola) dari suatu kumpulan data (database) berdasarkan pola frekusensi, assosiasi dan korelasi dari kombinasi item-item dalam data tersebut. Pola yang tersembunyi dalam data tersebut dapat diketahui sehingga dapat memberikan informasi yang sangat bermanfaat dalam pengembangan usaha bisnis yang sedang dijalani.


Assosiation Rule adalah suatu bentuk pola jika “kejadian sebelumnya” kemudian “konsekuensinya” (IF antecedent, THEN consequent). Secara umum dapat dapat ditulis :


Dimana X dan Y merupakan himpunan bagian dari data set tersebut. Selain itu X dan Y saling disjoin atau dapat ditulis :

X disebut anteseden (antecedent) dan Y disebut konsekuen (consequent).


Penting tidaknya suatu aturan assosiatif (association rule) dapat diketahui dengan dua parameter, yaitu support dan confidence. Support (nilai penunjang) yaitu persentase kombinasi item dalam database tersebut atau persentase dari transaksi dalam database yang mengandung item X dan Y. Confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif atau persentase transaksi dalam database yang mengandung item X dan Y pada transaksi yang memuat X.

Rumus support dan confidence:

Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada pada rule tersebut.

Sedangkan kegunaan dari confidence adalah untuk mengukur tingkat kebenaran(reability) dari kesimpulan yang diambil oleh rule yang dibuat. Jika nilai confidence rendah maka kemungkinan munculnya Y yang memuat X semakin rendah pula.

Analisis asosiatif didefenisikan sebagai suatu proses untuk menemukan semua aturan asosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).


Aturan assosiatif biasanya dinyatakan dalam bentuk :


{roti,mentega} → {susu} (support = 40%, confidence = 50%)


Yang artinya : “50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu”. Dapat juga diartikan : “Seseorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”


Beberpa aplikasi dari association rule yang telah diterapkan dibagi dalam 3 kategori :

  1. Association Discovery (Market Basket Analysis)

Menganilis barang-barang yang dibeli secara bersamaan pada suatu transaksi, sehingga ditemukan hubungan yang mungkin tersembunyi diantar barang-barang tersebut. Contohnnya : seberapa sering seorang costumer membeli roti bersamaan denga susu.

  1. Sequential Pattern Discovery

Mengidentifikasi hubungan antara transaksi pembelian barang dari waktu ke waktu untuk mendapatkan informasi mengenai urutan barang yang dibeli costumer. Tujuannya adalah mengenali kebiasaan costumer dalam jangka waktu tertentu. Contohnya : customer yang membeli Pentium PC sembilan bulan yang lalu cenderung untuk memesan CPU baru dalam satu bulan ini.

  1. Similar Time Sequence Discovery

Menemukan hubungan antara dua kelompok data yang bergantung pada waktu, berdasarkan tingkat kemiripan pola yang ditunjukkan data tersebut. Tujuannya mencari kemunculan semua sequence yang mirip dengan sequence yang diberikan, dalam time-series database.


Untuk menemukan semua association rule yang terdapat dalam suatu database perlu dilakukan dua proses tahapan utama, yaitu :

  1. Tahapan Pencarian Large Itemset

Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Itemset yang memenuhi persyaratan ini disebut frequent itemset (large itemset) dan sebaliknya yang tidak memenuhi persyaratan disebut infrequent itemset (small itemset).

  1. Tahapan Pemebentukan Strong Assosiation Rule

Dengan menggunkan frequent itemset yang terbentuk dihasilkan (strong) association rule yang memenuhi minimum confidence yang telah ditetapkan.


Contoh perhitungan :

Contoh database transaksi pada sebuah swalayan :

Id Transaksi

Items

T1

HotDogs, Buns, Ketchup

T2

HotDogs, Buns

T3

HotDogs, Coke, Chips

T4

Chips, Coke

T5

Chips, Ketchup

T6

HotDogs, Coke, Chips

Diberikan nilai support minimum (s) = 33.34% dan nilai confidence minimum (c) = 60%.

Kandidat 1-itemset (C1) dan nilai supportnya :

Itemset

Support

HotDogs

66.67%

Buns

33.33%

Ketchup

33.33%

Coke

50%

Chips

66.67%



Himpunan Large 1-itemset (L1)

Itemset

Support

HotDogs

66.67%

Coke

50%

Chips

66.67%


Kandidat 2-itemset (C2) dan nilai supportnya :

Itemset

Support

HotDogs, Coke

50%

HotDogs, Chips

50%

Chips, Coke

75%


Himpunan Large 2-itemset (L2)

Itemset

Support

Confidence

HotDogs, Coke

50%

100%

HotDogs, Chips

50%

100%

Chips, Coke

75%

75%


Kandidat 3-itemset (C3) dan nilai supportnya :

Items

Support

HotDogs, Coke, Chips

100%


Rule dari kandidat 3-itemset (C3) dan nilai confidennya :

Rule

Confidnece

HotDogs Coke, Chips

33.33%

Coke HotDogs, Chips

66.67%

Chips HotDogs, Coke

50%

HotDogs, Coke Chips

100%

HotDogs, Chips Coke

100%

Coke, Chips HotDogs

66.67%


Rule yang memenuhi syarat minimum support dan minimum confidence adalah :

Rule

Support

Confidence

Coke HotDogs, Chips

50%

66.67%

HotDogs, Coke Chips

50%

100%

HotDogs, Chips Coke

50%

100%

Chips, Coke HotDogs

75%

66.67%


Kamis, Januari 01, 2009

Tugas Data Mining

Tugas 1

Dalam Sebuah tabung terdapat 9 buah bola, 3 hijau, 2 cream dan lainnya berwarna hitam. Berapakah peluang terambilnya bola hitam pada pengambilan kedua dengan catatan pengambilan pertama warna hijau.
Dikembalikan (P(A))
tidak dekembalikan (P(B))

Jawaban!

Peluang A = 4/9
Peluang B = 4/8


Analisis Komponen Utama

Dalam statistika, analisis komponen utama (principal component analysis / PCA) adalah suatu teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi data tersebut secara linier sehingga terbentuk sistem koordinat baru dengan varians maksimum. Analisis komponen utama digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan. Dengan kata lain memperkecil dimensi variabel asal sehingga diperoleh variabel baru (komponen utama) yang tidak saling berkorelasi tetapi menyimpan sebagian besar informasi yang terkandung dalam variabel asal. Hasil analisis komponen utama antara lain nilai akar ciri, proporsi, dan kumulatif akar ciri, nilai pembobot atau sering disebut factor loading, serta factort scores. Contoh aplikasi Analisis komponen utama adalah untuk teknik kompresi citra digital dan kompresi video.
Analisis komponen utama juga dikenal dengan Transformasi Karhunen-Loève (dinamakan untuk menghormati Kari Karhunen dan Michel Loève) atau Transformasi Hotelling (dinamakan untuk menghormati Harold Hotelling). Analisis komponen utama juga merupakan salah satu teknik statistik multivariat yang dapat menemukan karakteristik data yang tersembunyi.
Analisis Komponen Utama (PCA) sering digunakan sebagai analisis antara maupun analisis akhir. Sebagai analisis antara PCA bermanfaat untuk menghilangkan multicollinearity atau untuk mereduksi variabel yang berukuran besar ke dalam variabel baru yang berukuran sederhana. Untuk analisis akhir, PCA umumnya digunakan untuk mengelompokkan variabel-variabel penting dari suatu bundel variabel besar untuk menduga suatu fenomena, sekaligus memahami struktur dan melihat hubungan antar variabel.

Pada dasarnya analisis komponen utama adalah analisis yang mentransformasikan data sejumlah p ke dalam struktur data baru sejumlah k dengan jumlah k < p. Komponen utama k dapat digunakan untuk nantinya menggantikan komponen p dari variabel yang ada, dimana komponen utama ke k ini merupakan reduksi dari himpunan data asli sebanyak n didalam p variabel. Langkah-langkah dari analisa komponen utama sebagai berikut :
Membentuk matrik covarian berdasarkan variabel asal.
Mencari nilai dari value dengan menggunakan dekomposisi singuler.
Dari nilai-nilai eigen yang dihasilkan ini kemudian bisa didapati besarnya proporsi tiaptiap nilai value dengan cara membagikan nilai yang ada dengan total dari penjumlahan seluruh nilai value.
Beberapa nilai value yang terbesar dipilih sebagai dasar dalam penentuan jumlah faktor yang akan digunakan dalam analisis faktor.

Dalam sistem yang didisain, metode analisis komponen utama diterapkan untuk jumlah data yang besar. Prinsip dasar dari algoritma analisis komponen utama adalah mengurangi dimensi suatu set data namun tetap mempertahankan sebanyak mungkin informasi dalam set data tersebut. Secara matematis analisis komponen utama mentransformasikan sejumlah variabel yang berkorelasi ke dalam bentuk yang bebas tidak berkorelasi. Komponen utama satu dengan yang lain tidak saling berkorelasi dan diurutkan sedemikian rupa sehingga Komponen utama yang pertama memuat paling banyak variasi dari data set. Sedangkan Komponen utama yang kedua memuat variasi yang tidak dimiliki oleh komponen utama pertama.

Untuk menampilkan data pada objek – objek yang mempunyai beberapa variabel (dimensi) maka perlu dilakukan transformasi agar variabel tersebut dapat diwakilkan pada variabel baru yang mampu menerangkan keragaman data terbesar. Variable-variabel baru tersebut merupakan kombinasi linier dengan variabel lama sehingga dapat dicari tingkat korelasi variabel baru dengan varibel lama. Variable baru tersebut tidak mempunyai korelasi antar variabel baru lain.

Variable baru Y 1 dimana Y1 =a 1 x yang mempunyai ragam s² Y1, Y2 dimana Y2 = a2 X yang mempunyai ragam s² Y2, demikian seterusnya sampai dengan Yp dimana Yp = ap X yang mempunyai ragam s² YP.
s² Y1 ³s² Y2 ³………….s²YP-1 ³s² YP
s² Y1 = a 1 _ a 1
Sasaran adalah max a1 s² x a1 dengan kendala | a1 | = 1
F (a1) = a1_a1 – A (a1 – 1)
D f (a1)/d a1 = a1_a1 – 2 A a1 = 0
(_ – A 1) a1 = 0
Jika | _ – A 1 | = 0 maka Ai dapat ditentukan. Selanjutnya akan dapat ditentukan a1, demikian juga Y1.
Untuk menentukan Y2 maka fungsi f (a1) diberi kendala antara lain s² Y1Y2 = 0, | a2 | = 1, a1 a2 = 0, sehingga
D f (a2) / d (a2) = 2 a1 _ a1 – B a1 = 0
Maka akan dapat ditentukan (_ – B 1) a2 = 0 dan | _ – B 1 | = 0, sehingga B dapat ditentukan. Nilai – nilai a2 dan Y2 dapat ditentukan pula.

Dengan melakukan plot dua variabel baru yang mampu menerangkan variasi data yang terbesar maka akan didapatkan posisi dan penggerombolkan data-data yang diamati. Data-data yang menggerombol diharapkan mempunyai tingkat kemiripan variable-variabelnya. Selanjutnya variabel yang paling menentukan penggerombolan tersebut akan dapat dijawab melalui penghitungan korelasi variabel lama dengan variabel hasil transformasi komponen utama.

Dengan melakukan analisis ini seluruh variabel yang ada akan dilihat hubungan-nya (inter-dependent antar variabel), sehingga akan menghasilkan pengelompokan atau tepatnya abstraction dari banyak variabel menjadi hanya beberapa variabel baru. Dengan sedikit variabel ini akan menjadi lebih mudah untuk dikelola.