Please use this identifier to cite or link to this item:
http://repository.ipb.ac.id/handle/123456789/168597| Title: | Klasifikasi Subtipe Kanker Payudara Pada Data Ekspresi Gen Dengan Analisis Komponen Utama Dan Regresi Logistik Multinomial Lasso |
| Other Titles: | |
| Authors: | Ardana, Ngakan Komang Kutha Mangku, I Wayan Kafi, Restu Nur |
| Issue Date: | 2025 |
| Publisher: | IPB University |
| Abstract: | Kanker payudara merupakan jenis kanker dengan prevalensi tertinggi di dunia, dengan klasifikasi subtipe molekuler seperti Basal-like, HER2-enriched, Luminal A, dan Luminal B yang berperan penting dalam penentuan diagnosis dan terapi. Penelitian ini bertujuan untuk mengevaluasi model klasifikasi subtipe kanker payudara berbasis data ekspresi gen RNA-Seq menggunakan dua pendekatan, yaitu model 1 dengan reduksi dimensi menggunakan Analisis Komponen Utama (AKU) sebelum diterapkan regresi logistik multinomial LASSO dan model 2 yang langsung menerapkan regresi logistik multinomial LASSO tanpa reduksi dimensi. Dataset yang digunakan terdiri dari 825 sampel dengan 20531 fitur gen. Evaluasi performa dilakukan menggunakan metrik presisi, sensitivitas, skor F1, dan AUC yang relevan untuk data tidak seimbang. Hasil klasifikasi menunjukkan bahwa model 2 memiliki performa yang lebih baik dengan skor F1 rata-rata 0.860 dan AUC 0.986, dibandingkan dengan model 1 yang memiliki skor F1 0.703 dan AUC 0.947. Performa rendah model 1 disebabkan oleh AKU sebagai metode tidak terawasi yang tidak mempertimbangkan label kelas dalam proses reduksi dimensi. Sebaliknya, model 2 sebagai metode terawasi mampu mempertahankan fitur-fitur yang relevan dengan target, termasuk yang berasal dari kelas minoritas. Dengan demikian, metode terawasi tanpa reduksi dimensi lebih efektif dalam klasifikasi subtipe kanker payudara pada data berdimensi tinggi dan tidak seimbang. Breast cancer is the most prevalent type of cancer worldwide, with molecular subtypes such as Basal-like, HER2-enriched, Luminal A, and Luminal B playing a crucial role in diagnosis and treatment decisions. This study aims to evaluate classification models for breast cancer subtypes based on RNA-Seq gene expression data using two approaches: model 1, which applies dimensionality reduction using Principal Component Analysis (PCA) before multinomial LASSO logistic regression, and model 2, which directly applies multinomial LASSO logistic regression without dimensionality reduction. The dataset consists of 825 samples with 20,531 gene features. Model performance was evaluated using precision, sensitivity, F1-score, and AUC metrics, which are appropriate for imbalanced data. The classification results show that model 2 outperforms model 1, with an average F1-score of 0.860 and AUC of 0.986, compared to model 1 is F1-score of 0.703 and AUC of 0.947. The lower performance of model 1 is attributed to PCA being an unsupervised method that does not consider class labels during dimensionality reduction. In contrast, model 2, as a supervised method, is able to retain features relevant to the target, including those from minority classes. Thus, the supervised method without dimensionality reduction is more effective for classifying breast cancer subtypes in high-dimensional and imbalanced data. |
| URI: | http://repository.ipb.ac.id/handle/123456789/168597 |
| Appears in Collections: | UT - Mathematics |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| cover_G5401211060_93607da2b5ef40a4b6209ee8bbd7cd71.pdf | Cover | 3.61 MB | Adobe PDF | View/Open |
| fulltext_G5401211060_4ac68e77a40e4814b2a658b0fa634e84.pdf Restricted Access | Fulltext | 2.76 MB | Adobe PDF | View/Open |
| lampiran_G5401211060_b98007ea081646fa989346ff54f4dedc.pdf Restricted Access | Lampiran | 2.62 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.