Komparasi Algoritme Biclustering pada Data Campuran dan Terapannya terhadap Data Potensi Perdagangan Ekspor Indonesia
Abstract
Pada data riil sangat memungkinkan untuk melibatkan berbagai macam data yang tidak hanya terdiri dari data numerik atau kategorik saja, melainkan campuran dari keduanya (mixed-type data). Penerapan analisis biclustering pada data campuran masih relatif baru karena pada mulanya analisis ini banyak digunakan pada data ekspresi gen yang memiliki skala interval atau numerik. Hingga saat ini, biclustering hanya dapat diterapkan pada data numerik saja atau data kategorik saja dan belum terdapat pengembangan algoritme biclustering yang dapat langsung mengakomodir data campuran secara sekaligus. Oleh karena itu, penelitian ini berfokus untuk melakukan kajian simulasi dan menerapkan analisis biclustering pada data campuran menggunakan pendekatan transformasi peubah kategorik ordinal menjadi skala interval. Salah satu metode yang banyak digunakan dalam transformasi data kategorikal ordinal menjadi skala interval adalah Metode Suksesif Interval (MSI).
Algoritme biclustering dibagi menjadi lima klasifikasi yang berbeda. Namun, algoritme biclustering bukanlah algoritme yang spesifik dan belum terdapat aturan yang tepat dalam memilih algoritme yang sesuai untuk kriteria atau kasus data tertentu. Algoritme biclustering dipilih berdasarkan beberapa pertimbangan terutama dalam sisi kemudahan dalam melakukan partisi matriks data menjadi sejumlah submatriks. Pada penelitian ini, akan digunakan dua algoritme dari dua klasifikasi yang berbeda yaitu algoritme BCBimax (Repeated Binary Inclusion Maximal) yang berasal dari klasifikasi devide and conquer, dan algoritme QUBIC (Qualitative Biclustering) yang berasal dari klasifikasi distribution parameter identification. Pemilihan kedua algoritme tersebut didasarkan pada karakteristik dan keunggulannya masing-masing. Algoritme BCBimax tergolong cepat dan sederhana dalam menemukan bicluster dengan cara menemukan submatriks yang berisi elemen 1 pada matriks biner. Sementara pada algoritme QUBIC dapat menghasilkan performa yang baik pada data yang mengandung outlier dan dapat mengatur tingkat tumpang tindih antar bicluster.
Penelitian ini terdiri atas kajian simulasi dan kajian terapan. Kajian simulasi digunakan untuk melihat performa kedua algoritme di atas pada kombinasi skenario derajat tumpang tindih antar baris bicluster sebesar 0%, 10%, dan 20% dan proporsi peubah kategorik terhadap seluruh peubah sebesar 0%, 10%, dan 25%. Simulasi dilakukan dengan terlebih dahulu membangkitkan amatan berupa matriks berukuran 500×50 (merepresentasikan 500 observasi dan 50 peubah), dimana masing-masing peubah berdistribusi N(0,1) yang selanjutnya disebut sebagai data background. Selanjutnya dibangkitkan dua bicluster dengan bicluster 1 setiap peubahnya berdistribusi N(6;0,1) dan bicluster 2 setiap peubahnya berdistribusi N(15;0,1). Ukuran matriks bicluster 1 dan bicluster 2 pada tumpang tindih baris 0% adalah 101×20 dan 121×20, pada tumpang tindih baris 10% adalah 101×20 dan 205×20, dan pada tumpang tindih baris 20% adalah 196×20 dan 184×20. Bicluster optimal dihasilkan berdasarkan hasil biclustering pada algoritme BCBimax dengan memasukkan kriteria minimum baris dan minimum kolom sesuai ukuran bicluster bangkitan, serta memasukkan jumlah bicluster sejumlah 2. Setiap kombinasi simulasi diulang sebanyak 100 kali iterasi. Hasil evaluasi simulasi disajikan dalam indeks Jaccard dimana jika semakin tinggi indeks Jaccard (mendekati angka 1), maka semakin tinggi kemiripan antara hasil bicluster simulasi dengan bicluster optimal.
Pada kajian terapan, data yang digunakan merupakan kasus data potensi perdagangan dunia pada ekspor Indonesia dalam upaya pemetaan negara tujuan ekspor Indonesia secara optimal. Secara umum, penelitian ini terdiri dari tiga tahapan penelitian, yakni analisis biclustering menggunakan algoritme BCBimax, biclustering menggunakan QUBIC, dan evaluasi kebaikan kinerja algoritme biclustering. Biclustering menggunakan algoritme BCBimax dan QUBIC dilakukan secara terpisah pada setiap kombinasi parameter yang telah ditentukan sehingga diperoleh hasil biclustering pada parameter optimal untuk setiap algoritme. Setiap kelompok bicluster optimal tersebut digunakan untuk mengelompokkan negara tujuan ekspor Indonesia berdasarkan potensi perdagangan dunia. Sementara itu, evaluasi kebaikan kinerja algoritme biclustering yang digunakan yaitu nilai MSR (Mean Squared Residue), AIC (Akaike information Criterion), dan ukuran baris bicluster.
Hasil kajian simulasi menunjukkan bahwa semakin tinggi proporsi peubah kategorik terhadap seluruh peubah maka indeks Jaccard kedua algoritme akan semakin turun. Hal ini memiliki arti bahwa performa keduanya semakin menurun dengan semakin besarnya proporsi peubah kategorik terhadap seluruh peubah. Hasil tersebut dimungkinkan karena berkurangnya informasi dari data asli apabila dilakukan transformasi khususnya pada data kategorik. Selain itu, semakin tinggi tingkat tumpang tindih baris antar bicluster, kinerja BCBimax menunjukkan performa yang semakin menurun dan kinerja QUBIC menunjukkan performa yang cenderung stabil. Hal ini dikarenakan kinerja BCBimax yang cenderung menghindari adanya tumpang tindih pada teorinya sehingga performanya dapat menurun pada tingkat tumpang tindih tertentu. Sedangkan algoritme QUBIC adalah algoritme yang dapat mengatur tingkat tumpang tindih pada komputasinya.
Hasil kajian data empiris menunjukkan bahwa kinerja algoritme BCBimax lebih baik dibandingkan QUBIC. Hasil studi BCBimax dengan median ambang batas seluruh data didapatkan bahwa MSR optimal berada pada ambang batas baris 7 dan kolom 2. Jumlah bicluster yang terbentuk sebanyak 9 yang mencakup 74,7% negara. Sebagian besar negara yang tergabung dalam bicluster berasal dari Benua Eropa dan beberapa negara dari Benua Afrika yang masuk dalam bicluster.
Evaluasi hasil perbandingan kebaikan algoritme data empiris selaras dengan hasil perbandingan kebaikan data simulasi pada tingkat proporsi peubah kategorik=25% serta tumpang tindih 0% dan 20% yang menghasilkan kesimpulan bahwa performa algoritme BCBimax lebih unggul dibandingkan performa algoritme QUBIC. Pemerintah dapat mempertimbangkan hasil bicluster optimal dari data empiris dalam rangka pengambilan kebijakan terkait pemetaan potensi negara tujuan ekspor Indonesia, terutama hasil biclustering menggunakan BCBimax. In real data, it is very possible to involve various kinds of data that do not only consist of numerical or categorical data, but a mixture of both (mixed-type data). The application of biclustering analysis to mixed data is still relatively new because this analysis was initially widely used on gene expression data with an interval scale. Until now, biclustering can only be applied to numerical data or categorical data and there has been no development of a biclustering algorithm that can directly accommodate mixed data at once. Therefore, this research focuses on conducting a simulation study and applying biclustering analysis to mixed data using an ordinal categorical variable transformation approach to an interval scale. One method that is widely used in transforming ordinal categorical data into an interval scale is the Successive Interval Method (MSI).
Biclustering algorithms are divided into five different classifications. However, the biclustering algorithm is not specific and there are no precise rules for selecting an appropriate algorithm for certain criteria or data cases. The biclustering algorithm was chosen based on several considerations, especially in terms of ease in partitioning the data matrix into several submatrices. In this research, two algorithms from two different classifications will be used, namely the BCBimax (Repeated Binary Inclusion Maximal) algorithm which comes from the divide and conquer classification, and the QUBIC (Qualitative Biclustering) algorithm which comes from the distribution parameter identification classification. The selection of the two algorithms is based on their respective characteristics and advantages. The BCBimax algorithm is relatively fast and simple in finding biclusters by finding the submatrix containing element 1 in the binary matrix. Meanwhile, the QUBIC algorithm can produce good performance on data that contains outliers and can adjust the level of overlap between biclusters.
This research consists of simulation studies and applied studies. A simulation study was used to see the performance of the two algorithms above in a combined scenario of the degree of overlap between bicluster rows of 0%, 10%, and 20% and the proportion of categorical variables to all variables of 0%, 10%, and 25%. The simulation is carried out by first generating observations in the form of a 500×50 matrix (representing 500 observations and 50 variables), where each variable has the distribution N(0,1), which is hereinafter referred to as background data. Next, two biclusters were generated with bicluster 1, each variable having the distribution N(6;0.1) and bicluster 2, each variable having the distribution N(15;0.1). The matrix sizes of bicluster 1 and bicluster 2 at 0% row overlap are 101×20 and 121×20, at 10% row overlap they are 101×20 and 205×20, and at 20% row overlap they are 196×20 and 184 ×20. The optimal bicluster is generated based on the results of biclustering in the BCBimax algorithm by entering the minimum row and minimum column criteria according to the size of the bicluster generated, and entering the number of biclusters as 2. Each simulation combination is repeated 100 iterations. The results of the simulation evaluation are presented in the Jaccard index, where the higher the Jaccard index (closer to number 1), the higher the similarity between the simulation bicluster results and the optimal bicluster.
In the applied study, the data used is case data on world trade potential for Indonesian exports to optimally map Indonesia's export destination countries. In general, this research consists of three stages: biclustering analysis using the BCBimax algorithm, biclustering using QUBIC, and evaluating the performance goodness of the biclustering algorithm. Biclustering using the BCBimax and QUBIC algorithms is carried out separately for each combination of parameters that have been determined so that biclustering results are obtained on the optimal parameters for each algorithm. Each optimal bicluster group is used to group Indonesia's export destination countries based on world trade potential. Meanwhile, evaluating the performance of the biclustering algorithm used is the MSR (Mean Squared Residue), AIC (Akaike Information Criterion), and bicluster row size.
The results of the simulation study show that the higher the proportion of categorical variables to all variables, the lower the Jaccard index of both algorithms will be. This means that the performance of both decreases with the increasing proportion of categorical variables to all variables. This result is possible because of the reduction in information from the original data when transformation occurs, especially on categorical data. In addition, the higher the level of row overlap between biclusters, the performance of BCBimax shows increasingly decreasing performance and the performance of QUBIC shows performance that tends to be stable. This is because BCBimax's performance tends to avoid overlap in its theory so that its performance can decrease at a certain level of overlap. Meanwhile, the QUBIC algorithm is an algorithm that can regulate the level of overlap in its computation.
The results of the empirical data study show that the performance of the BCBimax algorithm is better than QUBIC. The results of the BCBimax study using the median threshold for all data showed that the optimal MSR was at the threshold in row 7 and column 2. The number of biclusters formed was 9, covering 74.7% of the country. Most of the countries that are members of the bicluster come from the European Continent and several countries from the African Continent are included in the bicluster.
Evaluation of the comparison results of the goodness of the empirical data algorithm is in line with the results of the comparison of the goodness of the simulated data at the proportion level of categorical variables = 25% and an overlap of 0% and 20% which results in the conclusion that the performance of the BCBimax algorithm is superior to the performance of the QUBIC algorithm. The government can consider optimal bicluster results from empirical data in the context of policy-making regarding mapping the potential of Indonesia's export destination countries, especially the results of biclustering using BCBimax.