Show simple item record

dc.contributor.advisorWigena, Aji Hamim
dc.contributor.advisorSadik, Kusman
dc.contributor.advisorEfriwati
dc.contributor.authorHaikal, Husnul Aris
dc.date.accessioned2024-03-20T23:45:33Z
dc.date.available2024-03-20T23:45:33Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/142670
dc.description.abstractMetode klasifikasi merupakan metode statistika yang bertujuan untuk memprediksi suatu kelompok data pada kelas kelompok data yang sudah ada, berdasarkan peubah bebas. Ada banyak metode yang dapat digunakan dalam metode klasifikasi, diantaranya adalah analisis diskriminan dan metode support vector machine (SVM). Penggunaan analisis diskriminan pada pemodelan klasifikasi akan bermasalah ketika peubah bebas merupakan peubah bebas campuran kategorik dan kontinu, oleh sebab itu harus diatasi terlebih dahulu. Selain itu penggunaan peubah bebas yang terlalu banyak juga perlu dibatasi dengan melakukan seleksi information value agar terhindar dari terjadinya overfitting. Penggunaan metode klasifikasi juga sering mengalami masalah ketika jumlah data pada kelas peubah respon tidak seimbang (imbalance data) karena dapat menyebabkan kesalahan klasifikasi. Salah satu metode untuk mengatasi hal ini adalah metode resampling, untuk itu tiga metode resampling yaitu undersampling, oversampling, dan Synthetic Minority Oversampling Technique (SMOTE) digunakan pada penelitian ini. Selain itu penggunaan analisis diskriminan dengan peubah bebas campuran kategorik-kontinu, peubah bebas kategoriknya tidak ditransformasi menjadi peubah bebas dummy tetapi digunakan untuk membangun sel (subset data) berdasarkan kombinasi kategori yang ada pada seluruh peubah bebas kategorik yang digunakan dalam model. Selain menggunakan analisis diskriminan, pada penelitian ini juga menggunakan metode support vector machine (SVM). Ide dasar dari metode SVM adalah mencari batas pemisah (hyperplane) yang paling optimal. Hyperplane adalah sebuah fungsi yang dapat memisahkan suatu kelas dengan kelas yang lain dan untuk mengimplementasikan beberapa metode kernel yaitu kernel linear, kernel polynomial dan kernel radial basis function. Terhadap ketiga kernel ini juga dilakukan hypertunning parameter untuk mencari nilai hyperparameter gamma dan C terbaik. Hasil dari pemodelan dibandingkan dan dipilih model terbaiknya berdasarkan nilai balance accuracy terbesar. Pada kedua metode klasifikasi perlu dilakukan evaluasi sebelum digunakan. Kajian studi kasus yaitu data yang memiliki peubah bebas campuran kategorik dan kontinu yang terdiri dari data Titanic Dataset, Coronary Heart Disease dan Indian Liver Patients Record yang bersumber dari Kaggle digunakan dalam evaluasi ini. Hasil membandingkan kedua model klasifikasi pada ketiga data ini menunjukkan bahwa pada data Titanic Dataset, analisis diskriminan dengan metode oversampling merupakan model yang lebih baik dibanding metode SVM kernel linear, karena menghasilkan nilai balance accuracy yang lebih tinggi yaitu sebesar 78.10%. Pada data Coronary Heart Disease, analisis diskriminan tanpa metode resampling merupakan model yang lebih baik dibanding metode SVM kernel radial basis function dengan metode undersampling, karena menghasilkan nilai balance accuracy yang lebih tinggi yaitu sebesar 73.75%. Sementara pada data Indian Liver Patients Record, analisis diskriminan dengan metode resampling SMOTE merupakan model yang lebih baik dari pada metode SVM kernel linear dengan metode SMOTE, karena menghasilkan nilai balance accuracy yang lebih tinggi yaitu sebesar 68.33%. Hasil perbandingan evaluasi model menunjukkan bahwa analisis diskriminan merupakan model yang lebih baik daripada SVM untuk ketiga gugus data yang digunakan. Kajian empiris yang digunakan pada penelitian ini merupakan data waktu lama sembuh penyakit Covid-19 di Sumatera Barat. Peubah bebas kategorik yang digunakan dalam penelitian ini adalah jenis kelamin dan gejala yang dirasakan saat terjangkit Covid-19. Peubah numerik yang digunakan terdiri dari umur, lama waktu gejala Covid-19 menghilang setelah diketahui terjangkit Covid-19, jumlah daun sungkai yang digunakan ketika membuat ramuan daun sungkai, jumlah gelas ketika meminum daun sungkai, jumlah hari dalam mengonsumsi daun sungkai, dan intensitas dalam meminum ramuan daun sungkai per harinya. Hasil seleksi peubah bebas berdasarkan nilai information value menghasilkan bahwa dari delapan peubah bebas terdapat dua peubah bebas yang merupakan prediktor kuat, tiga peubah bebas yang merupakan prediktor sedang, satu peubah bebas yang merupakan prediktor lemah, dan dua peubah bebas yang merupakan peubah bebas yang yang tidak berpengaruh. Selanjutnya peubah bebas yang digunakan adalah peubah bebas yang berkatagori prediktor kuat dan prediktor sedang yaitu umur, lamanya gejala Covid-19 menghilang, lama waktu konsumsi daun sungkai, gejala yang dirasakan saat terkena Covid-19, dan jumlah daun sungkai yang dikonsumsi dalam ramuan. Uji Box’s M terhadap data dilakukan terlebih dahulu agar memenuhi asumsi kesamaan matriks ragam peragam dan menghasilkan nilai P-value sebesar 0.333 sehingga dapat disimpulkan bahwa data memenuhi asumsi kesamaan ragam. Data selanjutnya dibagi menjadi 75% data latih (membangun model dari kedua metode) dan 25% data uji (untuk menguji data yang terbentuk). Analisis diskriminan menghasilkan 4 model yaitu model analisis diskriminan tanpa metode resampling, model analisis diskriminan dengan undersampling, model analisis diskriminan dengan oversampling, model analisis diskriminan dengan SMOTE. Keempat model selanjutnya diuji menggunakan data uji dan diperoleh bahwa model analisis diskriminan dengan SMOTE menghasilkan nilai balanced accuracy tertinggi yaitu sebesar 66,54%. Metode SVM menghasilkan 12 model berdasarkan kernel dan metode resampling. Model SVM kernel linear dan metode resampling SMOTE menghasilkan nilai balanced accuracy tertinggi diantara 12 model yang terbentuk, yaitu sebesar 63,20%. Kedua model terbaik di masingmasing metode dibandingkan sehingga diperoleh kesimpulan bahwa analisis diskriminan dengan SMOTE menghasilkan nilai balanced accuracy tertinggi yaitu sebesar 66,54% dibandingkan model SVM kernel linear dan metode resampling SMOTE yang hanya menghasilkan nilai balanced accuracy sebesar 63,20%. Model terbaik dalam penelitian ini yaitu analisis diskriminan dengan SMOTE menghasilkan tiga model yaitu model ketika gejala yang dirasakan merupakan gejala ringan, gejala sedang dan gejala berat. Model ini sudah cukup baik dalam mengklasifikasikan lama waktu sembuh penyakit Covid-19 di Sumatera Barat karena memiliki nilai balanced accuracy sebesar 66.54%.id
dc.language.isoidid
dc.publisherIPB Universityid
dc.titlePerbandingan Analisis Diskriminan dan Metode Support Vector Machine Untuk Peubah Bebas Campuran (Kasus Waktu Lama Sembuh Penyakit Covid-19 di Sumatera Barat)id
dc.typeThesisid
dc.subject.keywordDiscriminant Analysisid
dc.subject.keywordSupport Vector Machineid
dc.subject.keywordSVMid
dc.subject.keywordMixed Independent Variableid
dc.subject.keywordCovid-19id


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record