Evaluasi Kinerja Biclustering Algoritme BCBimax dan Model Plaid dalam Melihat Pola Ketahanan Pangan Wilayah Indonesia
Date
2024Author
Hikmah, Nur
Sumertajaya, I Made
Afendi, Farit Mochamad
Metadata
Show full item recordAbstract
Metode penggerombolan (clustering) merupakan salah satu teknik yang dapat memberikan gambaran sebuah informasi yang terkandung dalam data. Pada penggerombolan klasik memiliki konsep penggerombolan satu arah. Selanjutnya dikembangkan metode analisis biclustering dengan beragam algoritme penemuan bicluster. Biclustering merupakan metode penggerombolan dua arah, yaitu menggerombolkan baris dan kolom secara simultan. Awalnya penerapan biclustering banyak diterapkan di data microarray pada ekspresi gen untuk melihat subset gen yang saling co-regulated terhadap kondisi tertentu. Namun, saat ini penerapan biclustering meluas ke berbagai bidang.
Banyak algoritme biclustering telah dikembangkan, dan setiap algoritme bekerja dengan alur prosedur penemuan bicluster tertentu. Namun demikian, belum terdapat panduan dalam pemilihan algoritme biclustering yang sesuai terhadap kriteria data. Hal ini dikarenakan kinerja algoritma biclustering dapat bervariasi, dan pemilihan parameter yang optimal merupakan isu penting yang perlu dipertimbangkan. Oleh sebab itu penelitian ini berfokus pada evaluasi kinerja algoritme biclustering untuk melihat karakteristik dari algoritme. Algoritme yang digunakan dalam penelitian ini adalah BCBimax dan Model Plaid yang dievaluasi pada data simulasi dan data empiris. Kedua algoritme dipilih berdasarkan beberapa pertimbangan diantaranya adalah kecepatan dalam menemukan bicluster serta kualitas bicluster yang dihasilkan.
Data simulasi dalam penelitian ini dibangkitkan dengan lima skenario ragam data background yang berbeda. Pada konteks ini, data background merupakan elemen data matriks selain elemen bicluster. Seperti halnya pada penggerombolan klasik yang mana salah satu indikator kualitas kebaikan algoritme adalah keterpisahan, yaitu memisahkan gerombol sejauh mungkin dengan gerombol lainnya yang karakternya berbeda. Maka pada biclustering, indikator ini dilihat dari sejauh mana algoritme biclustering mampu membedakan bicluster dengan data background. Simulasi diawali dengan membangkitkan matriks data background. Dimensi matriks data background berukuran 60×60, yang berarti terdiri dari 60 baris dan 60 kolom yang dibangkitkan berdistribusi N〖(0,σ〗^2) dengan σ^2={0,1;0,3;0,5;0,7;0,9}. Pada setiap skenario data background disisipkan enam bicluster yang tidak saling tumpang tindih berukuran 10×10. Keenam bicluster dibangkitkan mengikuti model a_ij= μ_k+ e_ij, dengan e_ij berdistribusi N(0;0,5) dan μ_k={2,5;5;7,5;10;12,5;15. Terakhir, matriks data yang sudah mengandung bicluster diacak baris dan kolomnya sebelum diterapkan biclustering algoritme BCBimax dan model Plaid.
Evaluasi kinerja algoritme dilakukan dengan 100 kali perulangan melalui ukuran nilai kemiripan antara bicluster prediksi dengan bicluster aktual. Elemen bicluster aktual yang dapat diprediksi diidentifikasi melalui pengecekan baris dan kolom yang bersesuaian pada bicluster prediksi. Berdasarkan skenario data bangkitan terlihat bahwa semakin besar ragam data background yang digunakan, maka sebaran nilai bicluster semakin terlihat berbaur dengan data background. Akan tetapi, pada keragaman data background yang ditetapkan pada penelitian ini tidak berpengaruh terhadap performa algoritme. Hasil evaluasi menunjukkan bahwa secara keseluruhan algoritme BCBimax memiliki kinerja yang lebih baik dibandingkan model Plaid dalam mengidentifikasi bicluster aktual. Hal ini didasari atas perolehan nilai kemiripan untuk setiap bicluster aktual yang dihasilkan lebih stabil dibandingkan pada model Plaid.
Pada data empiris, digunakan data mengenai ketahanan pangan berdasarkan tiga aspek pilar ketahanan pangan. Kedua algoritme diterapkan pada berbagai kombinasi parameter untuk memperoleh bicluster optimal yang bersifat homogen serta informatif dalam memperoleh pola ketahanan pangan wilayah Indonesia. Kinerja algoritme kemudian dievaluasi dengan menggunakan ukuran Jaccard Indeks, nilai Mean Square Residue (MSR), dan dimensi keanggotaan baris pada bicluster optimal yang diperoleh. Selain itu, secara eksploratif juga diamati plot profiling keanggotaan pada setiap bicluster yang terbentuk.
BCBimax dengan skenario threshold binerisasi median data menghasilkan delapan bicluster yang mencakup 58,8% provinsi. Kondisi optimal tersebut dihasilkan pada parameter minimum baris 2 dan minimum kolom 3. Sementara itu, biclustering menggunakan model Plaid menghasilkan kelompok bicluster optimal saat menggunakan parameter model konstan kolom, baris release 0,1 dan kolom release 0,4 serta jumlah maksimum layer 6. Sebanyak enam bicluster dihasilkan yang mencakup 55,88% provinsi dan bersifat tumpang tindih pada dimensi baris dan kolom. Secara umum, pola ketahanan pangan wilayah dari bicluster yang terbentuk pada kedua algoritme berkarakteristik rendah atau sedang terhadap ketahanan pangan.
Adapun hasil perbandingan evaluasi kinerja pada data empiris menunjukkan bahwa kinerja algoritme BCBimax lebih baik dibandingkan model Plaid dalam mengidentifikasi pola ketahanan pangan wilayah Indonesia. Kualitas bicluster hasil algoritme BCBimax cenderung lebih baik dilihat dari ukuran MSR serta plot profiling bicluster. Antar kedua algoritme memiliki tingkat kemiripan perolehan bicluster yang terbentuk tergolong rendah yaitu hanya sebesar 14,61%.