Kamis, Januari 01, 2009

Tugas Data Mining

Tugas 1

Dalam Sebuah tabung terdapat 9 buah bola, 3 hijau, 2 cream dan lainnya berwarna hitam. Berapakah peluang terambilnya bola hitam pada pengambilan kedua dengan catatan pengambilan pertama warna hijau.
Dikembalikan (P(A))
tidak dekembalikan (P(B))

Jawaban!

Peluang A = 4/9
Peluang B = 4/8


Analisis Komponen Utama

Dalam statistika, analisis komponen utama (principal component analysis / PCA) adalah suatu teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi data tersebut secara linier sehingga terbentuk sistem koordinat baru dengan varians maksimum. Analisis komponen utama digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan. Dengan kata lain memperkecil dimensi variabel asal sehingga diperoleh variabel baru (komponen utama) yang tidak saling berkorelasi tetapi menyimpan sebagian besar informasi yang terkandung dalam variabel asal. Hasil analisis komponen utama antara lain nilai akar ciri, proporsi, dan kumulatif akar ciri, nilai pembobot atau sering disebut factor loading, serta factort scores. Contoh aplikasi Analisis komponen utama adalah untuk teknik kompresi citra digital dan kompresi video.
Analisis komponen utama juga dikenal dengan Transformasi Karhunen-Loève (dinamakan untuk menghormati Kari Karhunen dan Michel Loève) atau Transformasi Hotelling (dinamakan untuk menghormati Harold Hotelling). Analisis komponen utama juga merupakan salah satu teknik statistik multivariat yang dapat menemukan karakteristik data yang tersembunyi.
Analisis Komponen Utama (PCA) sering digunakan sebagai analisis antara maupun analisis akhir. Sebagai analisis antara PCA bermanfaat untuk menghilangkan multicollinearity atau untuk mereduksi variabel yang berukuran besar ke dalam variabel baru yang berukuran sederhana. Untuk analisis akhir, PCA umumnya digunakan untuk mengelompokkan variabel-variabel penting dari suatu bundel variabel besar untuk menduga suatu fenomena, sekaligus memahami struktur dan melihat hubungan antar variabel.

Pada dasarnya analisis komponen utama adalah analisis yang mentransformasikan data sejumlah p ke dalam struktur data baru sejumlah k dengan jumlah k < p. Komponen utama k dapat digunakan untuk nantinya menggantikan komponen p dari variabel yang ada, dimana komponen utama ke k ini merupakan reduksi dari himpunan data asli sebanyak n didalam p variabel. Langkah-langkah dari analisa komponen utama sebagai berikut :
Membentuk matrik covarian berdasarkan variabel asal.
Mencari nilai dari value dengan menggunakan dekomposisi singuler.
Dari nilai-nilai eigen yang dihasilkan ini kemudian bisa didapati besarnya proporsi tiaptiap nilai value dengan cara membagikan nilai yang ada dengan total dari penjumlahan seluruh nilai value.
Beberapa nilai value yang terbesar dipilih sebagai dasar dalam penentuan jumlah faktor yang akan digunakan dalam analisis faktor.

Dalam sistem yang didisain, metode analisis komponen utama diterapkan untuk jumlah data yang besar. Prinsip dasar dari algoritma analisis komponen utama adalah mengurangi dimensi suatu set data namun tetap mempertahankan sebanyak mungkin informasi dalam set data tersebut. Secara matematis analisis komponen utama mentransformasikan sejumlah variabel yang berkorelasi ke dalam bentuk yang bebas tidak berkorelasi. Komponen utama satu dengan yang lain tidak saling berkorelasi dan diurutkan sedemikian rupa sehingga Komponen utama yang pertama memuat paling banyak variasi dari data set. Sedangkan Komponen utama yang kedua memuat variasi yang tidak dimiliki oleh komponen utama pertama.

Untuk menampilkan data pada objek – objek yang mempunyai beberapa variabel (dimensi) maka perlu dilakukan transformasi agar variabel tersebut dapat diwakilkan pada variabel baru yang mampu menerangkan keragaman data terbesar. Variable-variabel baru tersebut merupakan kombinasi linier dengan variabel lama sehingga dapat dicari tingkat korelasi variabel baru dengan varibel lama. Variable baru tersebut tidak mempunyai korelasi antar variabel baru lain.

Variable baru Y 1 dimana Y1 =a 1 x yang mempunyai ragam s² Y1, Y2 dimana Y2 = a2 X yang mempunyai ragam s² Y2, demikian seterusnya sampai dengan Yp dimana Yp = ap X yang mempunyai ragam s² YP.
s² Y1 ³s² Y2 ³………….s²YP-1 ³s² YP
s² Y1 = a 1 _ a 1
Sasaran adalah max a1 s² x a1 dengan kendala | a1 | = 1
F (a1) = a1_a1 – A (a1 – 1)
D f (a1)/d a1 = a1_a1 – 2 A a1 = 0
(_ – A 1) a1 = 0
Jika | _ – A 1 | = 0 maka Ai dapat ditentukan. Selanjutnya akan dapat ditentukan a1, demikian juga Y1.
Untuk menentukan Y2 maka fungsi f (a1) diberi kendala antara lain s² Y1Y2 = 0, | a2 | = 1, a1 a2 = 0, sehingga
D f (a2) / d (a2) = 2 a1 _ a1 – B a1 = 0
Maka akan dapat ditentukan (_ – B 1) a2 = 0 dan | _ – B 1 | = 0, sehingga B dapat ditentukan. Nilai – nilai a2 dan Y2 dapat ditentukan pula.

Dengan melakukan plot dua variabel baru yang mampu menerangkan variasi data yang terbesar maka akan didapatkan posisi dan penggerombolkan data-data yang diamati. Data-data yang menggerombol diharapkan mempunyai tingkat kemiripan variable-variabelnya. Selanjutnya variabel yang paling menentukan penggerombolan tersebut akan dapat dijawab melalui penghitungan korelasi variabel lama dengan variabel hasil transformasi komponen utama.

Dengan melakukan analisis ini seluruh variabel yang ada akan dilihat hubungan-nya (inter-dependent antar variabel), sehingga akan menghasilkan pengelompokan atau tepatnya abstraction dari banyak variabel menjadi hanya beberapa variabel baru. Dengan sedikit variabel ini akan menjadi lebih mudah untuk dikelola.

Tidak ada komentar:

Posting Komentar