Show simple item record

dc.contributor.advisorNotodiputro, Khairil Anwar
dc.contributor.advisorSartono, Bagus
dc.contributor.authorKhairunnisa, Adlina
dc.date.accessioned2024-01-23T02:59:50Z
dc.date.available2024-01-23T02:59:50Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/135629
dc.description.abstractRandom Forest (RF) merupakan salah satu model yang umum digunakan dalam analisis klasifikasi. RF mampu mengatasi kelemahan model pohon keputusan tunggal dengan menggunakan pengacakan dalam pembentukan pohon-pohon keputusan yang menghasilkan prediksi yang akurat. Di sisi lain, RF memiliki kelemahan saat menghasilkan pohon yang ukurannya tidak cukup besar dengan parameter nodesize terkecil yang dianggap sebagai model yang underfit. Double Random Forest (DRF) dikembangkan untuk mengatasi kekurangan tersebut dan terbukti unggul dalam menangani model yang underfit yang dihasilkan oleh RF. Model pohon gabungan seperti RF dan DRF sulit diinterpretasikan karena kompleksitasnya. Penggunaan metode interpretasi model seperti pendekatan aturan asosiasi, membantu dalam menjelaskan hubungan peubah yang terdapat dalam model pohon gabungan. Aturan asosiasi mampu menjelaskan struktur model dengan mengekstrak aturan dari setiap pohon keputusan yang terbentuk dalam model pohon gabungan. Aturan-aturan ini membantu menggambarkan hubungan antara peubah penjelas dan peubah respon dalam bentuk ”jika-maka”. Penelitian ini bertujuan untuk membandingkan interpretabilitas model RF dan DRF menggunakan aturan asosiasi. Data simulasi digunakan untuk mengevaluasi kinerja model RF dan DRF dari aspek interpretabilitas model. Data simulasi dibuat dengan memperhitungkan kondisi data yang tidak underfit dan data yang underfit, dengan melibatkan dua kelas pada peubah respon (Y) dan empat peubah penjelas (X1,X2,X3,X4). Peubah X1 merupakan data kontinu, sedangkan peubah X2, X3, dan X4 adalah peubah skala nominal. Peubah X2, X3, dan X4 diubah menjadi peubah dummy untuk menganalisis pengaruh masing-masing kategori dalam peubah tersebut. Peubah dummy tersebut diberikan koefisien yang dapat mencerminkan pengaruh dari setiap kategori terhadap kelas Y=1. Data yang tidak underfit dan data yang underfit dibangkitkan berdasarkan trial dan error. Data yang underfit merupakan hasil dari pemodelan RF ketika nilai akurasi uji relatif kurang dari 1. Penelitian ini juga menerapkan metode interpretasi model pada data empiris menggunakan data pasien penyakit jantung dan data pekerja miskin. Data pasien penyakit jantung bersumber dari UCI. Peubah respon yang digunakan terdiri dari pasien penyakit jantung dan tidak memiliki penyakit jantung. Sementara itu, data pekerja miskin bersumber dari hasil Survei Sosial Ekonomi Nasional 2022 di Provinsi DI Yogyakarta dan DKI Jakarta. Peubah respon yang digunakan terdiri dari 2 kelas yaitu pekerja miskin dan pekerja tidak miskin. Pembentukan model dilakukan setelah mengidentifikasi kemungkinan terjadinya RF menghasilkan model yang underfit pada data ini. Penerapan metode ekstraksi aturan dari model menghasilkan aturan-aturan yang dapat menjelaskan kombinasi peubah untuk memprediksi status pasien penyakit jantung dan pekerja miskin. Hasil kajian simulasi dengan pengaturan data simulasi yang tidak underfit tidak menunjukkan adanya perbedaan kinerja prediksi antara RF dan DRF. Sementara itu, prediksi model DRF lebih baik daripada RF yang ditunjukkan oleh nilai akurasi dan AUC yang tinggi dan signifikan pada data simulasi yang underfit. Ekstraksi aturan dari pohon keputusan yang terbentuk dalam RF dan DRF menunjukkan adanya perbedaan signifikan pada data yang tidak underfit dan data yang underfit. Sebagian besar nilai confidence tidak menunjukkan perbedaan yang signifikan antara aturan yang terbentuk dari RF dan DRF. Sementara itu, nilai support menunjukkan bahwa aturan-aturan yang dihasilkan dari DRF memiliki support yang lebih tinggi daripada RF pada data yang tidak underfit dan data yang underfit. Hasil ini mengindikasikan bahwa aturan-aturan yang berasal dari DRF lebih sering muncul dalam pohon yang terbentuk dan memiliki kemampuan prediksi yang akurat, sehingga DRF menunjukkan kinerja yang lebih baik daripada RF dalam hal interpretasi model baik pada data yang tidak underfit maupun data yang underfit. Analisis pada data empiris pasien penyakit jantung menunjukkan bahwa model RF tidak underfit, sehingga RF dan DRF digunakan dalam pemodelan. Aturan yang paling sering muncul dalam memprediksi penyakit jantung adalah jumlah pembuluh darah lebih besar sama dengan 1 dan detak jantungnya cacat tetap/cacat reversibel. Analisis pada data empiris pekerja miskin menunjukkan bahwa model RF underfit, sehingga DRF digunakan untuk mengatasi underfitting RF dalam memprediksi pekerja miskin di DI Yogyakarta dan DKI Jakarta. Hasil analisis aturan yang terbentuk menunjukkan bahwa kombinasi peubah yang paling sering muncul dalam memprediksi pekerja miskin di Yogyakarta adalah jam kerja pekerja yang kurang dari jam kerja standar (35 jam per minggu) dan tempat kelahiran di Yogyakarta. Di Jakarta, kombinasi peubah yang sering muncul dalam memprediksi pekerja miskin adalah proporsi anggota rumah tangga yang bekerja kurang dari atau sama dengan 0,45 dan tingkat pendidikan tertinggi adalah sekolah dasar/sekolah menengah pertama/sekolah menengah atas.id
dc.description.sponsorshipBadan Pusat Statistikid
dc.language.isoidid
dc.publisherIPB Universityid
dc.titleInterpretabilitas Model Random Forest dan Double Random Forest untuk Prediksi Status Penyakit Jantung dan Pekerja Miskinid
dc.title.alternativeInterpretability of Random Forest and Double Random Forest Models for Predicting the Heart Disease Status and the Working Poorid
dc.typeThesisid
dc.subject.keywordassociation rulesid
dc.subject.keyworddouble random forestid
dc.subject.keywordextraction ruleid
dc.subject.keywordworking poorid


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record