Model Kompresi Citra Berbasis Latent Space Untuk DNA Data Storage (In Silico) Dengan Deep Learning
Date
2026Author
Muttaqin, Muhammad Rafi
Herdiyeni, Yeni
Buono, Agus
Priandana, Karlisa
Siregar, Iskandar Zulkarnaen
Metadata
Show full item recordAbstract
Penyimpanan data berbasis Deoxyribonucleic Acid (DNA) merupakan inovasi yang menawarkan kapasitas penyimpanan tinggi, stabilitas jangka panjang, dan efisiensi ruang dibandingkan dengan media penyimpanan konvensional. Namun, tantangan utama dalam implementasi teknologi ini adalah panjang sekuens DNA yang dibutuhkan untuk merepresentasikan data digital, yang berpengaruh terhadap tingginya biaya sintesis DNA. Penelitian ini membuat model kompresi citra berbasis latent space untuk metode DNA data storage dengan deep learning. Proses kompresi citra yang dilakukan dalam penelitian ini menggunakan salah satu model arsitektur deep learning yaitu variational autoencoder (VAE). Pendekatan model VAE ini memungkinkan mengompresi citra dengan cara mereduksi jumlah variabel menjadi beberapa variabel yang menyimpan informasi utama dari citra masukan. Proses kompresi ini dilakukan sebelum tahapan binarization dilakukan dalam metode DNA data storage yang akan dilanjutkan ke tahapan encoding sehingga DNA sequence yang dihasilkan akan berkurang secara signifikan tanpa kehilangan informasi utama data asli. Tujuan penelitian ini adalah untuk membuat dan mengevaluasi model kompresi citra digital berbasis latent space untuk metode DNA data storage menggunakan deep learning. Penelitian ini dilaksanakan secara in silico dan secara eksplisit membatasi ruang lingkup pada tahap pra-encoding (pre-encoding) sebelum proses pengodean DNA fisik. Kebaruan dari penelitian ini adalah mengintegrasikan konsep kompresi citra berbasis latent space dan penerapan atau modifikasi algoritma encoding yang memperhatikan biological constraint pada model DNA data storage.
Dalam penelitian ini, model VAE digunakan untuk mengubah citra digital dari dataset MNIST menjadi representasi laten yang lebih ringkas sebelum dikonversi ke dalam format biner dan dikodekan sebagai sekuens DNA. Hasil eksperimen menunjukkan bahwa model VAE mampu mereduksi dimensi gambar dari 28 × 28 piksel (784 nilai intensitas) menjadi hanya 10 variabel laten, yang kemudian dikonversi menjadi data biner untuk proses encoding DNA. Evaluasi terhadap hasil rekonstruksi gambar dilakukan menggunakan Structural Similarity Index Measure (SSIM) dan Frechet Inception Distance (FID); secara agregat diperoleh nilai SSIM rataan mendekati 0,8 dengan FID rata-rata sekitar 132,21. Nilai SSIM tersebut menunjukkan bahwa, meskipun terjadi degradasi detail pada citra hasil rekonstruksi, struktur utama digit masih dapat dikenali, sedangkan nilai FID yang relatif tinggi mengindikasikan bahwa distribusi fitur citra rekonstruksi masih belum sepenuhnya sejajar dengan citra asli. Dalam konteks penyimpanan DNA, kombinasi SSIM dan FID ini menegaskan bahwa tahapan pra-encoding bersifat lossy, sehingga terdapat kompromi antara tingkat kompresi yang tinggi dan fidelitas rekonstruksi visual.
Jumlah bit binary dari citra sebelum dikompresi menggunakan VAE akan memiliki 6272 bit, sedangkan setelah dilakukan kompresi oleh VAE menjadi 320 bit. Jumlah bit ini mengalami penurunan sebesar 94,9%. Sedangkan jika membandingkan jumlah DNA sequence sebelum dilakukan kompresi dengan algoritma encoding yang digunakan akan memiliki rataan panjang nukleotida sebesar 3481 basa berbanding dengan jumlah nukleotida setelah dilakukan kompresi atau reduksi citra menggunakan VAE sebesar 165 basa. Jumlah basa nukleotida ini mengalami penurunan sebesar 95,26%.
Analisis varian menunjukkan bahwa digit dengan struktur lebih kompleks, seperti "2", memiliki varian yang lebih tinggi dalam dataset asli, yaitu 7501,52 yang menurun 14.11% menjadi 6443,02 setelah rekonstruksi. Hal ini mengindikasikan bahwa digit dengan bentuk lebih kompleks lebih rentan terhadap degradasi selama proses encoding-decoding. Selain itu, evaluasi terhadap GC (guanine-cytosine)-content dan homopolimer menunjukkan bahwa sebagian besar sekuens DNA yang dihasilkan memenuhi batasan biologis, dengan kandungan GC dalam rentang 40%-60%, meskipun terdapat beberapa outlier yang perlu dikoreksi dalam tahap encoding. Pemeriksaan ini merupakan validasi biologis in silico pada tingkat GC dan homopolimer, tanpa eksperimen basah.
Penelitian ini berhasil membuat model kompresi citra berbasis latent space untuk DNA data storage (in silico) dengan deep learning. Model yang dihasilkan menunjukkan adanya potensi untuk meningkatkan efisiensi biaya penyimpanan data digital dalam DNA dengan mengurangi jumlah data yang dikodekan tanpa menghilangkan informasi utama dari data asli. Meskipun struktur citra secara keseluruhan masih terjaga, pendekatan ini masih menghadapi tantangan dalam mempertahankan detail halus, khususnya pada citra yang memiliki bentuk yang lebih kompleks, serta hanya dievaluasi pada tingkat simulasi tanpa keterlibatan sistem penyimpanan DNA secara aktual. Rencana penelitian selanjutnya diarahkan pada uji sintesis fisik sekuens di laboratorium, penyempurnaan algoritma encoding-decoding yang lebih adaptif terhadap biological constraint, optimalisasi arsitektur VAE yang lebih lanjut, serta perluasan penerapan ke berbagai jenis data digital lain.
