Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/115853
Title: Kajian Perbandingan Metode Cox Proportional Hazard dan Random Survival Forest dalam Memprediksi Data Daya Tahan Tersensor Kanan.
Other Titles: COMPARATIVE STUDY OF THE COX PROPORTIONAL HAZARD AND RANDOM SURVIVAL FOREST METHODS IN PREDICTING RIGHT-CENSORED DATA
Authors: Sadik, Kusman
Saefuddin, Asep
Nurhaliza, Sitti
Issue Date: Jan-2023
Publisher: IPB University
Abstract: Analisis daya tahan merupakan suatu prosedur statistika dalam menganalisis data dengan peubah respon yaitu waktu hingga suatu kejadian terjadi. Pada analisis daya tahan dikenal dengan adanya istilah penyensoran. Penyensoran terjadi ketika suatu kejadian menarik tidak diamati dari individu sebelum atau pada saat penelitian berakhir. Selain itu, penyensoran terjadi ketika peneliti tidak mengetahui waktu daya tahan secara tepat, akan tetapi peneliti memiliki sebagian informasi dari individu tersebut. Waktu sensor yang sering ditemukan dalam penelitian yaitu data time-to-event tersensor kanan. Data tersensor kanan terjadi apabila pada saat penelitian berakhir individu belum mengalami suatu kejadian, individu mengundurkan diri dari penelitian dan tidak dapat diamati lebih lanjut, atau individu mengalami suatu kejadian lain yang menyebabkan pengamatan tidak dapat dilanjutkan. Oleh karena itu, data daya tahan menjadi tidak lengkap ketika terdapat data tersensor kanan karena faktor yang sifatnya acak untuk setiap individu. Metode yang populer digunakan dalam menganalisis data daya tahan tersensor kanan yaitu metode Cox Proportional Hazard (CPH). Metode CPH efisien digunakan apabila asumsi proportional hazard terpenuhi, jika tidak terpenuhi maka model CPH tidak memberikan kesimpulan akurat sehingga diperlukan metode alternatif. Salah satu metode pembelajaran mesin yakni Random Survival Forest (RSF) merupakan metode ensemble yang digunakan untuk menganalisis data daya tahan tersensor kanan tanpa memerhatikan asumsi apapun. Selain itu, RSF kekar terhadap adanya pencilan pada kovariat dan sebagai alat yang berguna dalam analisis eksplorasi daya tahan yang memiliki informasi terbatas. Metode ini mampu meningkatkan prediksi daya tahan dan seleksi peubah. Penelitian ini bertujuan untuk mengkaji perbandingan kinerja prediksi model CPH, RSF menggunakan pemisah log-rank dan log-rankscore dalam memprediksi data daya tahan tersensor kanan pada data simulasi. Selanjutnya menerapkan metode terbaik pada data churn pelanggan industri telekomunikasi. Data simulasi yang digunakan dalam penelitian ini merupakan data daya tahan tersensor kanan yang dibangkitkan dengan kombinasi skenario peubah prediktor biner dan campuran, skenario fungsi hazard menurun, meningkat, dan konstan, serta skenario jumlah amatan sebanyak "n=100,1000,1500". Peubah prediktor biner dibangkitkan menggunakan sebaran binomial pada berbagai kelompok nilai p yaitu 0,1-0,3 untuk nilai peluang kecil, 0,4-0,6 untuk nilai peluang sedang, dan lebih dari 0,6 untuk nilai peluang besar. Peubah prediktor campuran dibangkitkan menggunakan sebaran binomial, sebaran uniform, sebaran normal, dan sebaran poisson. Tujuan dilakukan pembangkitan data peubah prediktor dari sebaran yang berbeda yaitu untuk menghasilkan data kategorik dan kontinyu. Peubah waktu survival dibangkitkan menggunakan sebaran Weibull dengan parameter bentuk (α) dan skala (λ). Sebaran Weibull yang digunakan dibagi menjadi tiga berdasarkan aspek baseline hazard. Pertama, sebaran Weibull menurun atau dikenal dengan fungsi hazard menurun yaitu apabila nilai parameter bentuk α<1. Kedua, sebaran Weibull meningkat atau dikenal dengan fungsi hazard meningkat yaitu apabila nilai parameter bentuk α>1. Ketiga, sebaran Weibull konstan atau dikenal dengan fungsi hazard konstan yaitu apabila nilai parameter bentuk α=1. Selanjutnya, penetapan jumlah amatan yang berbeda bertujuan untuk mewakili ukuran data kecil, sedang, dan besar. Setiap penambahan jumlah amatan diharapkan menghasilkan kinerja prediksi model terbaik secara konsisten. Hasil kajian simulasi metode CPH, RSF-A (menggunakan pemisah log-rank), dan RSF-B (menggunakan pemisah log-rankscore) pada data daya tahan tersensor kanan dengan variasi peubah prediktor biner dan campuran, variasi fungsi hazard menurun, meningkat, dan konstan, serta variasi jumlah amatan yang berbeda diperoleh bahwa secara umum metode RSF-A dan RSF-B memiliki kinerja prediksi yang cenderung konsisten lebih baik dibandingkan dengan metode CPH dalam memprediksi waktu churn berdasarkan ukuran nilai C-index. Hal ini berlaku pada kondisi data yang laju kejadian churn merupakan fungsi hazard menurun untuk biner dan fungsi hazard meningkat dan konstan untuk campuran, baik pada data dalam jumlah kecil, sedang, maupun besar. Selanjutnya, model terbaik yang diperoleh dari kajian simulasi kemudian diterapkan pada data pelanggan industri telekomunikasi. Berdasarkan analisis daya tahan pada data pelanggan industri telekomunikasi menggunakan model RSF menggunakan pemisah log-rank diketahui bahwa model ini mampu memprediksi waktu churn pelanggan industri telekomunikasi dengan kinerja prediksi yang baik (Median C-index = 0,754). Adapun peubah penting yang dihasilkan pada model ini yaitu penggunaan internet, jumlah channel yang ditonton, durasi menonton TV, jumlah tagihan, umur 20-29 tahun, umur lebih dari 60 tahun, umur 50-59 Tahun, dan kecepatan 20 Mbps.
URI: http://repository.ipb.ac.id/handle/123456789/115853
Appears in Collections:MT - Mathematics and Natural Science

Files in This Item:
File Description SizeFormat 
Cover.pdf
  Restricted Access
Cover485.52 kBAdobe PDFView/Open
Siti Nurhaliza.pdf
  Restricted Access
Fullteks6.17 MBAdobe PDFView/Open
Lampiran.pdf
  Restricted Access
Lampiran1.32 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.