View Item 
      •   IPB Repository
      • Dissertations and Theses
      • Undergraduate Theses
      • UT - Faculty of Mathematics and Natural Sciences
      • UT - Statistics and Data Sciences
      • View Item
      •   IPB Repository
      • Dissertations and Theses
      • Undergraduate Theses
      • UT - Faculty of Mathematics and Natural Sciences
      • UT - Statistics and Data Sciences
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Perbandingan Performa Metode Pohon Model Logistik dan Random Forest pada Pengklasifikasian Data

      Thumbnail
      View/Open
      Cover (1.604Mb)
      Fullteks (2.830Mb)
      Lampiran (1.037Mb)
      Date
      2021
      Author
      Sari, Purnama
      Sadik, Kusman
      Raharjo, Mulianto
      Metadata
      Show full item record
      Abstract
      Multikolinearitas dan missing data merupakan dua masalah yang sering ditemukan pada data besar. Keberadaan missing data dapat mengurangi akurasi hasil prediksi. Logistic model tree (LMT) dapat menangani multikolinearitas dengan baik karena multikolinearitas bukan suatu masalah dalam metode pohon keputusan. Random forest terbukti dapat menurunkan keragaman dalam kasus prediksi. Penelitian ini bertujuan untuk mengkaji perbandingan metode LMT dan random forest pada data yang mengandung multikolinearitas dan missing data menggunakan data simulasi dan data riil. Tolak ukur evaluasi model adalah nilai ketepatan klasifikasi dan nilai AUC. Hasil yang diperoleh menunjukkan random forest memiliki performa yang lebih baik dalam memodelkan data dengan tingkat multikolinearitas sedang, banyak amatan dan persentase missing data yang besar. Sedangkan untuk data dengan tingkat multikolinearitas tinggi, LMT dengan penghapusan missing data terbukti menghasilkan performa yang lebih baik. Analisis selanjutnya dilakukan pada data dengan dimensi data yang berbeda. Hasil yang diperoleh menunjukkan bahwa random forest menghasilkan performa yang lebih baik. Kemudian untuk data “breast cancer” yang memiliki missing data hanya 0,3% penghapusan missing data menghasilkan performa yang lebih baik.
       
      Multicollinearity and missing data are two common problems in big data. Missing data could decrease the prediction accuracy. Logistic model tree (LMT) is used to handle multicollinearity because multicollinearity does not affect the decision tree. Random forest can be used to decrease variance in prediction case. This study aimed to study the comparison of two methods, LMT and random forest, in multicollinearity and missing data in various cases using simulation study and real data as dataset. Evaluation model is based on classification accuracy and AUC measurement. The result stated that random forest had better performance if the multicollinearity level is moderate. LMT with omitted missing data is proven to have better performance for big data and when a high percentage of missing data occurred, and the multicollinearity level is severe. The next step is analysed real data with different sample size. The result stated that random forest have better performance. Omitted missing data have better performance in classification “breast cancer” data which consist 0,3 % missing data.
       
      URI
      http://repository.ipb.ac.id/handle/123456789/109282
      Collections
      • UT - Statistics and Data Sciences [2260]

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository
        

       

      Browse

      All of IPB RepositoryCollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

      My Account

      Login

      Application

      google store

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository