Show simple item record

dc.contributor.advisorNotodiputro, Khairil Anwar
dc.contributor.advisorAngraini, Yenni
dc.contributor.authorMohd, Fatma Hilali
dc.date.accessioned2024-04-02T06:02:19Z
dc.date.available2024-04-02T06:02:19Z
dc.date.issued2024
dc.identifier.urihttp://repository.ipb.ac.id/handle/123456789/144778
dc.description.abstractBeberapa model klasifikasi dari berbagai penelitian telah dilakukan untuk memprediksi status pengangguran diantaranya adalah regresi logistik, Support Vector Machine, dan Random Forest. Studi ini akan membandingkan ketiga metode untuk memprediksi status pengangguran di Zanzibar. Data Integrated Labor Force Survey (ILFS) di Zanzibar tahun 2020/21 digunakan dalam penelitian ini untuk mengidentifikasi faktor-faktor yang memengaruhi pengangguran. Dari ketiga metode yang digunakan, metode atau algoritma Random Forest merupakan metode ayng sulit dalam hal interpretasi. Oleh karena itu, pendekatan aturan ekstraksi dan asosiasi menjadi salah satu Solusi untuk mengenali interaksi peubah umum pada Random Forest. Selain itu, masalah ketidakseimbangan data menjadi isu yang perlu ditangani dalam penelitian ini. Untuk mengatasi ketidakseimbangan dalam dataset, metode yang digunakan adalah Synthetic Minority Over-sampling Technique (SMOTE). Pengangguran merupakan permasalahan serius yang berdampak pada berbagai aspek, seperti keuangan, kesehatan mental, dan taraf hidup. Berdasarkan data survei ILFS, terjadi peningkatan signifikan dalam tingkat pengangguran di Zanzibar yang dilakukan pada tahun 2006, 2014, dan 2020/2021 masing-masing sebesar 5,5%, 14,3%, dan 19,6%. Mengingat situasi ini, prediksi diperlukan untuk mengidentifikasi peubah-peubah penting yang berkontribusi terhadap pengangguran untuk membantu menciptakan kesempatan kerja yang lebih baik. Penelitian ini merupakan penelitian pertama di Zanzibar yang menggunakan model klasifikasi (algoritma) untuk memprediksi status pengangguran. Hal ini juga merupakan penerapan awal kerangka aturan ekstraksi dan asosiasi dalam prediksi pengangguran, meningkatkan kemampuan interpretasi dan memberikan kontribusi unik pada literatur penelitian kedepannya. Hasil dari studi ini menunjukkan bahwa regresi logistik dengan data yang sudah diseimbangkan menggunakan pendekatan SMOTE, muncul sebagai model terbaik, serta mencapai tingkat akurasi sebesar 68,9%. Peubah seperti jenis kelamin, kurangnya asuransi kesehatan, tingkat pendidikan, dan kategori usia sangat memengaruhi prediksi pengangguran. Selain itu, dari hasil Random Forest dapat diinterpretasikan bahwa peubah 'perempuan, pemuda, kurangnya asuransi kesehatan, dan tingkat pendidikan menengah' menjadi peubah paling dominan dalam memprediksi pengangguran dengan tingkat kepercayaan yang tinggi.id
dc.description.abstractSeveral classification models from various review papers have been proposed for predicting unemployment status. Among these classification models, Logistic Regression (LR), Support Vector Machines (SVM) and Random Forests (RF) have drawn attention to the prediction of unemployment status. This study compares logistic regression, support vector machines and random forests to predict unemployment status in Zanzibar. In our study using Zanzibar’s Integrated Labor Force Survey (ILFS) data for 2020/21, we aimed to pinpoint significant factors influencing unemployment. However, grasping the random forest model proved to be difficult. Therefore, we created an easily understandable random forest using extraction and association rules to recognize the interaction of common variables. Additionally, we noticed a class imbalance issue, with fewer unemployed individuals than employed ones. To address the imbalance in the dataset, we employed the Synthetic Minority Over- sampling Technique (SMOTE) to balance the data. Unemployment is a serious problem that has an impact on various aspects, such as finances, mental health, and standard of living. We observed a notable increase in Zanzibar’s unemployment rate in ILFS surveys conducted in 2006, 2014, and 2020/2021 at 5.5%, 14.3%, and 19.6%, respectively. Given this situation, prediction is needed to identify important variables that contribute to unemployment to help create better job opportunities. This study is the first in Zanzibar to use a classification model(algorithm) to predict unemployment status. It is also the initial application of the extraction and association rules framework in unemployment prediction, enhancing interpretability and providing a unique contribution to the literature. The results of this study show that logistic regression, when applied with SMOTE, emerges as the best model, achieving an accuracy rate of 68.9%. Variables such as gender, lack of health insurance, education level, and youth category greatly influence unemployment prediction. Furthermore, from the results of the interpretable modified random forest, we found the variables ‘female, youth, lack of health insurance, and secondary education level’ to be the most dominant variables in predicting unemployment with a high confidence level.id
dc.language.isoen_USid
dc.publisherIPB Universityid
dc.subject.ddcStatistics and Data Scienceid
dc.titleLogistic Regression, Support Vector Machine and Random Forest for Predicting Unemployment Status in Zanzibarid
dc.typeThesisid
dc.subject.keywordassociation ruleid
dc.subject.keywordextraction ruleid
dc.subject.keywordLRid
dc.subject.keywordRFid
dc.subject.keywordunemployment statusid


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record