Please use this identifier to cite or link to this item:
http://repository.ipb.ac.id/handle/123456789/144778
Title: | Logistic Regression, Support Vector Machine and Random Forest for Predicting Unemployment Status in Zanzibar |
Authors: | Notodiputro, Khairil Anwar Angraini, Yenni Mohd, Fatma Hilali |
Issue Date: | 2024 |
Publisher: | IPB University |
Abstract: | Beberapa model klasifikasi dari berbagai penelitian telah dilakukan untuk
memprediksi status pengangguran diantaranya adalah regresi logistik, Support
Vector Machine, dan Random Forest. Studi ini akan membandingkan ketiga metode
untuk memprediksi status pengangguran di Zanzibar.
Data Integrated Labor Force Survey (ILFS) di Zanzibar tahun 2020/21
digunakan dalam penelitian ini untuk mengidentifikasi faktor-faktor yang
memengaruhi pengangguran. Dari ketiga metode yang digunakan, metode atau
algoritma Random Forest merupakan metode ayng sulit dalam hal interpretasi. Oleh
karena itu, pendekatan aturan ekstraksi dan asosiasi menjadi salah satu Solusi untuk
mengenali interaksi peubah umum pada Random Forest. Selain itu, masalah
ketidakseimbangan data menjadi isu yang perlu ditangani dalam penelitian ini.
Untuk mengatasi ketidakseimbangan dalam dataset, metode yang digunakan adalah
Synthetic Minority Over-sampling Technique (SMOTE).
Pengangguran merupakan permasalahan serius yang berdampak pada
berbagai aspek, seperti keuangan, kesehatan mental, dan taraf hidup. Berdasarkan
data survei ILFS, terjadi peningkatan signifikan dalam tingkat pengangguran di
Zanzibar yang dilakukan pada tahun 2006, 2014, dan 2020/2021 masing-masing
sebesar 5,5%, 14,3%, dan 19,6%. Mengingat situasi ini, prediksi diperlukan untuk
mengidentifikasi peubah-peubah penting yang berkontribusi terhadap
pengangguran untuk membantu menciptakan kesempatan kerja yang lebih baik.
Penelitian ini merupakan penelitian pertama di Zanzibar yang menggunakan model
klasifikasi (algoritma) untuk memprediksi status pengangguran. Hal ini juga
merupakan penerapan awal kerangka aturan ekstraksi dan asosiasi dalam prediksi
pengangguran, meningkatkan kemampuan interpretasi dan memberikan kontribusi
unik pada literatur penelitian kedepannya.
Hasil dari studi ini menunjukkan bahwa regresi logistik dengan data yang
sudah diseimbangkan menggunakan pendekatan SMOTE, muncul sebagai model
terbaik, serta mencapai tingkat akurasi sebesar 68,9%. Peubah seperti jenis kelamin,
kurangnya asuransi kesehatan, tingkat pendidikan, dan kategori usia sangat
memengaruhi prediksi pengangguran. Selain itu, dari hasil Random Forest dapat
diinterpretasikan bahwa peubah 'perempuan, pemuda, kurangnya asuransi
kesehatan, dan tingkat pendidikan menengah' menjadi peubah paling dominan
dalam memprediksi pengangguran dengan tingkat kepercayaan yang tinggi. Several classification models from various review papers have been proposed for predicting unemployment status. Among these classification models, Logistic Regression (LR), Support Vector Machines (SVM) and Random Forests (RF) have drawn attention to the prediction of unemployment status. This study compares logistic regression, support vector machines and random forests to predict unemployment status in Zanzibar. In our study using Zanzibar’s Integrated Labor Force Survey (ILFS) data for 2020/21, we aimed to pinpoint significant factors influencing unemployment. However, grasping the random forest model proved to be difficult. Therefore, we created an easily understandable random forest using extraction and association rules to recognize the interaction of common variables. Additionally, we noticed a class imbalance issue, with fewer unemployed individuals than employed ones. To address the imbalance in the dataset, we employed the Synthetic Minority Over- sampling Technique (SMOTE) to balance the data. Unemployment is a serious problem that has an impact on various aspects, such as finances, mental health, and standard of living. We observed a notable increase in Zanzibar’s unemployment rate in ILFS surveys conducted in 2006, 2014, and 2020/2021 at 5.5%, 14.3%, and 19.6%, respectively. Given this situation, prediction is needed to identify important variables that contribute to unemployment to help create better job opportunities. This study is the first in Zanzibar to use a classification model(algorithm) to predict unemployment status. It is also the initial application of the extraction and association rules framework in unemployment prediction, enhancing interpretability and providing a unique contribution to the literature. The results of this study show that logistic regression, when applied with SMOTE, emerges as the best model, achieving an accuracy rate of 68.9%. Variables such as gender, lack of health insurance, education level, and youth category greatly influence unemployment prediction. Furthermore, from the results of the interpretable modified random forest, we found the variables ‘female, youth, lack of health insurance, and secondary education level’ to be the most dominant variables in predicting unemployment with a high confidence level. |
URI: | http://repository.ipb.ac.id/handle/123456789/144778 |
Appears in Collections: | MT - Mathematics and Natural Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
kan-sdo-Fatma Thesis Draft_YA correction-signed (1)-watermark.pdf Restricted Access | Fulltext | 10.87 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.