Kajian Algoritma Cheng & Church dan Spectral Biclustering pada Data Berkorelasi dan Stuktur Bicluster Tumpang Tindih
Abstract
Kajian Algoritma Cheng & Church dan Spectral Biclustering pada
Data Berkorelasi dan Stuktur Bicluster Tumpang Tindih. Dibimbing oleh
INDAHWATI dan HARI WIJAYANTO.
Biclustering merupakan metode pengelompokan dua arah yang secara
simultan menghubungkan subset baris dan subset kolom untuk membentuk
submatriks koheren. Berbeda dengan clustering konvensional yang hanya bekerja
pada satu dimensi (baris atau kolom), biclustering mampu mendeteksi pola lokal
tersembunyi yang hanya muncul pada sebagian unit dan sebagian peubah secara
bersamaan. Pendekatan biclustering telah berkembang dari bidang bioinformatika
menuju aplikasi yang lebih luas, seperti sosial ekonomi, kesehatan dan lain
sebagainya. Dalam penerapannya, biclustering menghadapi dua tantangan umum
struktural utama: korelasi antarpeubah dan overlap keanggotaan. Korelasi
menyebabkan informasi menjadi redundan sehingga menurunkan ketepatan deteksi
pola, sedangkan overlap mengaburkan batas antar bicluster karena satu baris atau
kolom dapat tergabung dalam lebih dari satu kelompok. Penelitian ini bertujuan
mengkaji kinerja dua algoritma biclustering representatif, yaitu Cheng & Church
(CC) yang berbasis minimisasi Mean Squared Residue (MSR) dan Spectral
Biclustering yang berbasis Singular Value Decomposition (SVD) dalam
mengidentifikasi pola bicluster pada data yang mengandung korelasi dan overlap.
Kajian dilakukan pada data simulasi dan data empiris. Data simulasi
dibangkitkan dalam bentuk matriks 50 × 50 dengan 3 tingkat korelasi ( ?? =
0,3; 0,6; 0,9) dan 3 tingkat overlap (tanpa, kecil, besar), serta dua bicluster konstan
sebagai ground truth. Evaluasi dilakukan berdasarkan indeks Liu dan Wang (ILW)
yang mengukur kesesuaian hasil biclustering terhadap struktur aktual, dan
dianalisis menggunakan ANOVA tiga arah. Hasil menunjukkan bahwa algoritma
CC optimal dalam kondisi korelasi rendah dan tanpa overlap (ILW mendekati 0,95),
tetapi performanya menurun tajam ketika korelasi antar peubah tinggi dan overlap
besar (ILW ˜ 0,50). Sebaliknya, Spectral Biclustering mempertahankan performa
stabil dengan ILW konsisten pada rentang 0,7 - 0,9 di hampir semua skenario.
Analisis ANOVA menegaskan bahwa overlap merupakan sumber variasi dominan
dalam penurunan performa algoritma (??² = 42,85%), diikuti jenis algoritma dan
korelasi. Interaksi algoritma dan korelasi juga signifikan, menunjukkan bahwa
efektivitas algoritma sangat bergantung pada struktur data yang dihadapi.
Data empiris menggunakan IPD Provinsi Riau yang mencakup 172
kecamatan dan 21 peubah pembangunan desa hasil agregasi dari data PODES 2024.
Struktur data menunjukkan korelasi antar peubah yang rendah (75,71% pasangan
r = 0,3) dan distribusi nilai yang tidak homogen, menjadikannya relevan untuk
pendekatan biclustering. Algoritma CC menghasilkan 16 bicluster non-overlap
dengan nilai ASR sebesar 0,05, menggambarkan kekompakan internal dan
segmentasi lokal yang tajam. Sementara itu, Spectral Biclustering menghasilkan 15
bicluster dengan pola overlap dan nilai ASR sebesar 0,43, mencerminkan struktur
checkerboard global yang kompleks. Evaluasi nilai ILW menunjukkan kesamaan
keanggotaan hanya sebesar 22%, yang menandakan bahwa masing-masing
algoritma mengungkap pola dari perspektif yang berbeda. Profiling bicluster
mengungkap bahwa CC mengelompokkan wilayah berdasarkan peubah penciri
yang spesifik dan homogen, sedangkan Spectral mengidentifikasi keterkaitan
multidimensi antar kecamatan dan peubah, dengan kecenderungan overlap
keanggotaan pada beberapa bicluster sekaligus.
Secara keseluruhan, hasil penelitian ini menunjukkan bahwa algoritma Cheng
& Church lebih sesuai untuk data dengan batas kelompok tegas dan korelasi rendah,
sedangkan Spectral Biclustering unggul dalam menangani struktur data yang
overlap dan multidimensi. Temuan ini menegaskan pentingnya mempertimbangkan
karakteristik struktural data dalam memilih algoritma biclustering, agar hasil
segmentasi wilayah lebih adaptif dan dapat dijadikan dasar dalam pengambilan
keputusan pembangunan yang berbasis data.
