Integrasi Observabilitas Berbasis Log, Metrik, dan Tracing untuk Meningkatkan Reliabilitas dan Skalabilitas Sistem Backend
Abstract
Observabilitas menjadi elemen penting dalam menjaga keandalan dan skalabilitas sistem backend modern. Penelitian ini bertujuan mengimplementasikan sistem observabilitas komprehensif berbasis log, metrik, dan tracing untuk memantau performa serta mendeteksi permasalahan pada sistem backend e- commerce secara realtime, sekaligus mengevaluasi efektivitasnya. Penelitian dilakukan melalui pendekatan eksperimen dengan mengintegrasikan teknologi Prometheus, Grafana, Loki, Fluent Bit, Jaeger, dan OpenTelemetry dalam sebuah cluster K3s yang terdiri dari tiga node. Proses pengujian meliputi simulasi beban menggunakan K6 dan analisis performa sistem sebelum dan sesudah dilakukan tuning pada konfigurasi connection pool database. Hasil penelitian menunjukkan bahwa setelah tuning, sistem mengalami peningkatan throughput pada skenario pengujian tertentu hingga 15.5% dan penurunan latency rata-rata dari 121.25 ms menjadi 104.77 ms pada skenario pengujian lainnya. Sistem observabilitas yang dibangun juga berhasil mendeteksi bottleneck pada layanan eksternal melalui analisis tracing serta mencatat lonjakan error signifikan hingga 53.9% saat koneksi database dimatikan secara simulatif. Penerapan observabilitas ini terbukti mampu meningkatkan reliabilitas dan skalabilitas sistem serta menyediakan data yang akurat untuk mendukung pengambilan keputusan teknis. Observability plays a crucial role in ensuring the reliability and scalability of modern backend systems. This study aims to implement a comprehensive observability system based on logs, metrics, and tracing to monitor performance and detect issues in a backend e-commerce system in real time, while also evaluating its effectiveness. The research uses an experimental approach by integrating Prometheus, Grafana, Loki, Fluent Bit, Jaeger, and OpenTelemetry into a K3s cluster with three nodes. Testing was conducted through load simulation using K6 and performance analysis before and after tuning the database connection pool configuration. The results show that after tuning, the system experienced a throughput increase of up to 15.5% in specific test scenarios and a reduction in average latency from 121.25 ms to 104.77 ms in other test scenarios. The developed observability system also successfully identified bottlenecks in external services through tracing analysis and recorded a significant error spike up to 53.9% during a simulated database outage. This observability implementation effectively improves system reliability and scalability while providing accurate data to support technical decision-making.
