Please use this identifier to cite or link to this item: http://repository.ipb.ac.id/handle/123456789/168597
Title: Klasifikasi Subtipe Kanker Payudara Pada Data Ekspresi Gen Dengan Analisis Komponen Utama Dan Regresi Logistik Multinomial Lasso
Other Titles: 
Authors: Ardana, Ngakan Komang Kutha
Mangku, I Wayan
Kafi, Restu Nur
Issue Date: 2025
Publisher: IPB University
Abstract: Kanker payudara merupakan jenis kanker dengan prevalensi tertinggi di dunia, dengan klasifikasi subtipe molekuler seperti Basal-like, HER2-enriched, Luminal A, dan Luminal B yang berperan penting dalam penentuan diagnosis dan terapi. Penelitian ini bertujuan untuk mengevaluasi model klasifikasi subtipe kanker payudara berbasis data ekspresi gen RNA-Seq menggunakan dua pendekatan, yaitu model 1 dengan reduksi dimensi menggunakan Analisis Komponen Utama (AKU) sebelum diterapkan regresi logistik multinomial LASSO dan model 2 yang langsung menerapkan regresi logistik multinomial LASSO tanpa reduksi dimensi. Dataset yang digunakan terdiri dari 825 sampel dengan 20531 fitur gen. Evaluasi performa dilakukan menggunakan metrik presisi, sensitivitas, skor F1, dan AUC yang relevan untuk data tidak seimbang. Hasil klasifikasi menunjukkan bahwa model 2 memiliki performa yang lebih baik dengan skor F1 rata-rata 0.860 dan AUC 0.986, dibandingkan dengan model 1 yang memiliki skor F1 0.703 dan AUC 0.947. Performa rendah model 1 disebabkan oleh AKU sebagai metode tidak terawasi yang tidak mempertimbangkan label kelas dalam proses reduksi dimensi. Sebaliknya, model 2 sebagai metode terawasi mampu mempertahankan fitur-fitur yang relevan dengan target, termasuk yang berasal dari kelas minoritas. Dengan demikian, metode terawasi tanpa reduksi dimensi lebih efektif dalam klasifikasi subtipe kanker payudara pada data berdimensi tinggi dan tidak seimbang.
Breast cancer is the most prevalent type of cancer worldwide, with molecular subtypes such as Basal-like, HER2-enriched, Luminal A, and Luminal B playing a crucial role in diagnosis and treatment decisions. This study aims to evaluate classification models for breast cancer subtypes based on RNA-Seq gene expression data using two approaches: model 1, which applies dimensionality reduction using Principal Component Analysis (PCA) before multinomial LASSO logistic regression, and model 2, which directly applies multinomial LASSO logistic regression without dimensionality reduction. The dataset consists of 825 samples with 20,531 gene features. Model performance was evaluated using precision, sensitivity, F1-score, and AUC metrics, which are appropriate for imbalanced data. The classification results show that model 2 outperforms model 1, with an average F1-score of 0.860 and AUC of 0.986, compared to model 1 is F1-score of 0.703 and AUC of 0.947. The lower performance of model 1 is attributed to PCA being an unsupervised method that does not consider class labels during dimensionality reduction. In contrast, model 2, as a supervised method, is able to retain features relevant to the target, including those from minority classes. Thus, the supervised method without dimensionality reduction is more effective for classifying breast cancer subtypes in high-dimensional and imbalanced data.
URI: http://repository.ipb.ac.id/handle/123456789/168597
Appears in Collections:UT - Mathematics

Files in This Item:
File Description SizeFormat 
cover_G5401211060_93607da2b5ef40a4b6209ee8bbd7cd71.pdfCover3.61 MBAdobe PDFView/Open
fulltext_G5401211060_4ac68e77a40e4814b2a658b0fa634e84.pdf
  Restricted Access
Fulltext2.76 MBAdobe PDFView/Open
lampiran_G5401211060_b98007ea081646fa989346ff54f4dedc.pdf
  Restricted Access
Lampiran2.62 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.