Logistic Regression, Support Vector Machine and Random Forest for Predicting Unemployment Status in Zanzibar

Mohd, Fatma Hilali

Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/144778

Title:	Logistic Regression, Support Vector Machine and Random Forest for Predicting Unemployment Status in Zanzibar
Authors:	Notodiputro, Khairil Anwar Angraini, Yenni Mohd, Fatma Hilali
Issue Date:	2024
Publisher:	IPB University
Abstract:	Beberapa model klasifikasi dari berbagai penelitian telah dilakukan untuk memprediksi status pengangguran diantaranya adalah regresi logistik, Support Vector Machine, dan Random Forest. Studi ini akan membandingkan ketiga metode untuk memprediksi status pengangguran di Zanzibar. Data Integrated Labor Force Survey (ILFS) di Zanzibar tahun 2020/21 digunakan dalam penelitian ini untuk mengidentifikasi faktor-faktor yang memengaruhi pengangguran. Dari ketiga metode yang digunakan, metode atau algoritma Random Forest merupakan metode ayng sulit dalam hal interpretasi. Oleh karena itu, pendekatan aturan ekstraksi dan asosiasi menjadi salah satu Solusi untuk mengenali interaksi peubah umum pada Random Forest. Selain itu, masalah ketidakseimbangan data menjadi isu yang perlu ditangani dalam penelitian ini. Untuk mengatasi ketidakseimbangan dalam dataset, metode yang digunakan adalah Synthetic Minority Over-sampling Technique (SMOTE). Pengangguran merupakan permasalahan serius yang berdampak pada berbagai aspek, seperti keuangan, kesehatan mental, dan taraf hidup. Berdasarkan data survei ILFS, terjadi peningkatan signifikan dalam tingkat pengangguran di Zanzibar yang dilakukan pada tahun 2006, 2014, dan 2020/2021 masing-masing sebesar 5,5%, 14,3%, dan 19,6%. Mengingat situasi ini, prediksi diperlukan untuk mengidentifikasi peubah-peubah penting yang berkontribusi terhadap pengangguran untuk membantu menciptakan kesempatan kerja yang lebih baik. Penelitian ini merupakan penelitian pertama di Zanzibar yang menggunakan model klasifikasi (algoritma) untuk memprediksi status pengangguran. Hal ini juga merupakan penerapan awal kerangka aturan ekstraksi dan asosiasi dalam prediksi pengangguran, meningkatkan kemampuan interpretasi dan memberikan kontribusi unik pada literatur penelitian kedepannya. Hasil dari studi ini menunjukkan bahwa regresi logistik dengan data yang sudah diseimbangkan menggunakan pendekatan SMOTE, muncul sebagai model terbaik, serta mencapai tingkat akurasi sebesar 68,9%. Peubah seperti jenis kelamin, kurangnya asuransi kesehatan, tingkat pendidikan, dan kategori usia sangat memengaruhi prediksi pengangguran. Selain itu, dari hasil Random Forest dapat diinterpretasikan bahwa peubah 'perempuan, pemuda, kurangnya asuransi kesehatan, dan tingkat pendidikan menengah' menjadi peubah paling dominan dalam memprediksi pengangguran dengan tingkat kepercayaan yang tinggi. Several classification models from various review papers have been proposed for predicting unemployment status. Among these classification models, Logistic Regression (LR), Support Vector Machines (SVM) and Random Forests (RF) have drawn attention to the prediction of unemployment status. This study compares logistic regression, support vector machines and random forests to predict unemployment status in Zanzibar. In our study using Zanzibar’s Integrated Labor Force Survey (ILFS) data for 2020/21, we aimed to pinpoint significant factors influencing unemployment. However, grasping the random forest model proved to be difficult. Therefore, we created an easily understandable random forest using extraction and association rules to recognize the interaction of common variables. Additionally, we noticed a class imbalance issue, with fewer unemployed individuals than employed ones. To address the imbalance in the dataset, we employed the Synthetic Minority Over- sampling Technique (SMOTE) to balance the data. Unemployment is a serious problem that has an impact on various aspects, such as finances, mental health, and standard of living. We observed a notable increase in Zanzibar’s unemployment rate in ILFS surveys conducted in 2006, 2014, and 2020/2021 at 5.5%, 14.3%, and 19.6%, respectively. Given this situation, prediction is needed to identify important variables that contribute to unemployment to help create better job opportunities. This study is the first in Zanzibar to use a classification model(algorithm) to predict unemployment status. It is also the initial application of the extraction and association rules framework in unemployment prediction, enhancing interpretability and providing a unique contribution to the literature. The results of this study show that logistic regression, when applied with SMOTE, emerges as the best model, achieving an accuracy rate of 68.9%. Variables such as gender, lack of health insurance, education level, and youth category greatly influence unemployment prediction. Furthermore, from the results of the interpretable modified random forest, we found the variables ‘female, youth, lack of health insurance, and secondary education level’ to be the most dominant variables in predicting unemployment with a high confidence level.
URI:	http://repository.ipb.ac.id/handle/123456789/144778
Appears in Collections:	MT - Mathematics and Natural Science

Files in This Item:

File	Description	Size	Format
kan-sdo-Fatma Thesis Draft_YA correction-signed (1)-watermark.pdf Restricted Access	Fulltext	10.87 MB	Adobe PDF	View/Open

Show full item record Recommend this item

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets