Evaluasi Kinerja Algoritma Biclustering SAMBA dan Spectral pada Produksi Komoditas Hortikultura di Indonesia
Abstract
Biclustering merupakan metode penggerombolan dua arah yang menghubungkan gerombol objek dengan gerombol peubah secara simultan. Biclustering dilakukan bertujuan untuk mendapatkan pola lokal dari suatu hasil penggerombolan dua arah. Algoritma biclustering pada awalnya hanya diterapkan pada data ekspresi gen di bidang bioinformatika, tetapi kini penerapannya meluas ke berbagai bidang seperti ekonomi, sosial, dan kesehatan. Biclustering memiliki banyak algoritma yang dapat diterapkan pada jenis data tertentu, tetapi belum ada pedoman khusus yang dapat dijadikan acuan dalam memilih algoritma tersebut. Algoritma biclustering dipilih berdasarkan beberapa pertimbangan di antaranya kecepatan dalam menemukan bicluster, karakteristik unik bicluster yang terbentuk, dan kualitas bicluster yang dihasilkan. Setiap algoritma biclustering bersifat unik sesuai dengan alur masing-masing algoritma sehingga membandingkan evaluasi kinerja dua algoritma menjadi kajian yang menarik untuk dilakukan. Penelitian ini akan mengevaluasi kinerja algoritma SAMBA dan spectral biclustering yang diterapkan pada data produksi tanaman hortikultura jenis sayuran di Indonesia. Penerapan pada data pertanian belum pernah dilakukan sebelumnya. Pemilihan algoritma SAMBA dan spectral biclustering dikarenakan keunggulannya dalam kecepatan dan dapat menemukan bicluster pada data bervariasi dan berdimensi besar.
Penelitian ini akan melakukan kajian pada data simulasi dan data empiris. Kajian simulasi bertujuan untuk mengukur kinerja metode normalisasi matriks (IRRC, bistochastization, log) pada algoritma spectral biclustering dalam mengidentifikasi bicluster dengan kriteria tertentu. Data simulasi bicluster dibuat berdasarkan faktor ukuran (kecil, sedang, besar) dan model bicluster (konstan dan koheren). Hasil kajian simulasi menunjukkan semakin kecil ukuran bicluster, semakin sulit bicluster tersebut untuk diidentifikasi. Model bicluster tidak berpengaruh signifikan terhadap nilai indeks Liu dan Wang. Hal ini menunjukkan bahwa spectral biclustering baik dalam mengidentifikasi bicluster dari berbagai model karena memiliki nilai indeks Liu dan Wang yang dihasilkan relatif sama. Hasil kajian dengan 100 kali ulangan menunjukkan bahwa metode normalisasi IRRC dan log memiliki performa yang lebih baik dibandingkan metode bistochastization. Nilai indeks Liu dan Wang untuk ukuran bicluster kategori besar mencapai 0,88. Hal ini menunjukkan bahwa 88% bicluster dapat teridentifikasi atau dua dari tiga bicluster yang dibangkitkan dapat diidentifikasi dengan baik.
Evaluasi penentuan parameter pada algoritma SAMBA dan spectral biclustering dilakukan pada data empiris untuk menemukan bicluster optimal menggunakan nilai ASR dan jumlah keanggotaan baris (provinsi). Algoritma SAMBA menemukan bicluster optimal dengan parameter N1=2,N2=7, dan L=0. Jumlah bicluster yang terbentuk sebanyak 9 bicluster dengan nilai ASR terkecil sebesar 0,017987. Algoritma SAMBA berhasil menggerombolkan provinsi sebesar 82,35% dan peubah jenis sayuran sebesar 43,48%. Algoritma spectral biclustering menemukan bicluster optimal menggunakan metode normalisasi IRRC dengan parameter ne=6,k=7, dan ambang batas within variance sebesar 3,46. Jumlah bicluster yang dihasilkan sebanyak 5 bicluster dengan banyak provinsi yang tergerombolkan sebesar 73,53% dan peubah jenis sayuran sebesar 60,87%, serta memiliki nilai ASR terkecil sebesar 0,037215. Algoritma SAMBA menghasilkan bicluster dengan adanya tumpang tindih pada provinsi dan peubah. Seluruh kategori potensi produksi tanaman sayuran di Indonesia dapat terpetakan. Kedua algoritma mayoritas memetakan potensi produksi terkategori sedang ke rendah. Wilayah dengan mayoritas kategori potensi produksi tinggi adalah Jawa Barat, Jawa Tengah, Sumatera Utara, Sulawesi Utara dan Sulawesi Selatan. Wilayah dengan mayoritas kategori potensi rendah ke sedang merupakan wilayah Papua, Papua Barat, Kalimantan, Maluku, dan Maluku Utara.
Perbandingan hasil evaluasi kinerja algoritma SAMBA dan spectral biclustering dilakukan berdasarkan nilai ASR, indeks Liu dan Wang, profiling bicluster, dan jumlah keanggotaan baris dan kolom. Algoritma SAMBA dan spectral biclustering memiliki kinerja yang cenderung baik dalam menemukan bicluster optimal, ditinjau berdasarkan nilai ASR yang dihasilkan relatif kecil, yaitu SAMBA sebesar 0,017987 dan spectral biclustering sebesar 0,0372. Algoritma SAMBA menghasilkan keanggotaan baris sebanyak 28 provinsi dengan peubah jenis sayuran yang lebih spesifik. Spectral biclustering menghasilkan keanggotaan baris sebanyak 25 provinsi dengan jenis sayuran yang lebih banyak dalam suatu bicluster. Profiling bicluster yang dihasilkan kedua algoritma mayoritas mempunyai profile yang berhimpit dan sejajar. Hal ini mengindikasikan bicluster yang terbentuk cenderung homogen.